Microsoft merilis tiga model AI “lihat, dengar, ucapkan”, menargetkan alur kerja perusahaan AI kelas komersial

ChainNewsAbmedia

2026-04-02 17:35:09

Setelah Microsoft merilis model generasi gambar MAI-Image-2 pada 18 Maret, pada 2 April Microsoft kembali merilis dua model terkait suara, yaitu MAI-Transcribe-1 dan MAI-Voice-1. Dalam waktu singkat, mereka melengkapi kemampuan gambar dan suara secara berkelanjutan, yang dipandang sebagai langkah penting dalam strategi AI multimodal mereka. Ketiga model ini bukan pembaruan yang terpisah-pisah, melainkan sebuah puzzle lengkap dari generasi visual, pemahaman suara, hingga keluaran suara, yang menunjukkan bahwa Microsoft sedang berupaya membangun kemampuan dasar AI yang dapat langsung disisipkan ke dalam alur kerja perusahaan.

Microsoft MAI-Image-2 menargetkan generasi gambar untuk kebutuhan komersial

MAI-Image-2 yang pertama kali diluncurkan Microsoft pada 18 Maret jelas menempatkan fokus pada “dapat digunakan untuk komersial” ketimbang sekadar generasi kreatif. Dibandingkan dengan model gambar sebelumnya yang lebih condong ke hiburan atau sifat eksperimen, MAI-Image-2 lebih menekankan stabilitas output dan ketepatan semantik. Model ini dapat mempertahankan konsistensi komposisi dan kelengkapan detail di bawah perintah yang kompleks. Hal ini membuatnya lebih cocok digunakan untuk skenario seperti materi pemasaran merek, visual produk, dan desain iklan.

Bagi perusahaan, nilai model semacam ini tidak terletak pada apakah model tersebut bisa menghasilkan gambar yang memukau, melainkan pada apakah model tersebut dapat terus memproduksi konten yang “dapat digunakan dan dapat dikendalikan”, dan inilah inti yang diperkuat oleh MAI-Image-2.

Clipto membungkam tapi! Microsoft meluncurkan model transkrip rapat berbasis per kata MAI-Transcribe-1

Selanjutnya, MAI-Transcribe-1 yang diluncurkan pada 2 April berfokus pada kemampuan pemahaman suara. Penentuan posisinya cukup jelas: ini adalah lapisan teknologi dasar untuk mengubah suara menjadi data teks terstruktur. Model ini dapat menangani masukan suara secara real-time, dan dalam situasi multi-bahasa serta berbagai aksen tetap menjaga akurasi pengenalan yang tinggi, sekaligus memiliki kemampuan tertentu untuk menahan gangguan dari noise latar.

Kemampuan seperti ini sangat penting dalam skenario perusahaan. Baik untuk transkrip rapat per kata, catatan panggilan layanan pelanggan, maupun perapihan konten media, semuanya bergantung pada kualitas konversi suara ke teks yang stabil. Begitu data suara dapat diubah secara akurat menjadi teks, proses pencarian, peringkasan, dan analisis berikutnya bisa diotomatisasi secara menyeluruh. Inilah peran kunci MAI-Transcribe-1 dalam arsitektur AI secara keseluruhan.

Gunakan model MAI-Voice-1 untuk layanan pelanggan, Podcast suara

MAI-Voice-1 yang sepadan, bertanggung jawab pada sisi keluaran suara. Fokus model ini adalah membuat suara yang dihasilkan AI lebih mendekati penampilan manusia, termasuk naturalitas intonasi, ritme, dan emosi. Ini memungkinkannya diterapkan pada skenario seperti suara layanan pelanggan, asisten AI, sulih suara untuk video, bahkan produksi podcast. Dibandingkan dengan sintesis suara yang lebih mekanis di masa lalu, MAI-Voice-1 lebih menekankan intonasi dan gaya yang dapat disesuaikan, sehingga suara tidak lagi hanya menjadi alat penyampaian informasi, melainkan memiliki kemampuan komunikasi dan ekspresi sebagai antarmuka.

Rekap tiga model AI “lihat, dengar, ucapkan” dari Microsoft

Jika ketiganya dilihat dalam konteks yang sama, terlihat bahwa penataan Microsoft bukan terobosan pada satu titik saja, melainkan dorongan cepat menuju integrasi multimodal. MAI-Image-2 menangani generasi visual, MAI-Transcribe-1 bertanggung jawab untuk pemahaman suara, sedangkan MAI-Voice-1 menyelesaikan generasi suara. Ketiganya bersama-sama membentuk struktur kemampuan dasar “lihat, dengar, ucapkan”.

Begitu kemampuan ini digabungkan dengan model bahasa dan layanan cloud yang sudah ada, mereka dapat membentuk alur kerja AI yang lengkap: dari masukan data, pemahaman, generasi, hingga keluaran—semuanya selesai dalam satu sistem yang sama.

Fitur

MAI-Transcribe-1

( suara ke teks )

MAI-Voice-1 ( teks ke suara ) MAI-Image-2 ( gambar dari teks ) Fungsi utama

Mengubah suara menjadi transkrip per kata

Menghasilkan suara yang alami, lancar, serta bernuansa emosi

Menghasilkan gambar berdasarkan deskripsi teks

Tanggal rilis

2 April 2026

18 Maret 2026

Teknologi kunci dan fitur

Tahan noise tinggi, pengenalan bahasa otomatis

Kontrol emosi, duplikasi suara (Voice Prompting)

Arsitektur model difusi (Diffusion-based), tingkat keaslian tinggi

Dukungan bahasa

Bahasa Inggris, Cina, Spanyol, dll 25 bahasa

Saat ini hanya bahasa Inggris (akan diperluas menjadi 10+ bahasa)

Utama input berbasis teks (tidak secara khusus menandai dukungan multibahasa)

Skema penetapan harga

Per jam audio $0.36 dolar AS

Per juta kata $22.00 dolar AS

Tergantung platform penerapan (mis. MAI Playground)

Batasan input / output

Input: WAV, MP3, FLAC

Input: teks murni atau SSML

Output: maksimum 1024×1024 piksel

Artikel ini tentang Microsoft merilis tiga model AI “lihat, dengar, ucapkan” untuk menargetkan alur kerja perusahaan AI level komersial pertama kali muncul di ChainNews ABMedia.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar