Setelah Microsoft merilis model generasi gambar MAI-Image-2 pada 18 Maret, pada 2 April Microsoft kembali merilis dua model terkait suara, yaitu MAI-Transcribe-1 dan MAI-Voice-1. Dalam waktu singkat, mereka melengkapi kemampuan gambar dan suara secara berkelanjutan, yang dipandang sebagai langkah penting dalam strategi AI multimodal mereka. Ketiga model ini bukan pembaruan yang terpisah-pisah, melainkan sebuah puzzle lengkap dari generasi visual, pemahaman suara, hingga keluaran suara, yang menunjukkan bahwa Microsoft sedang berupaya membangun kemampuan dasar AI yang dapat langsung disisipkan ke dalam alur kerja perusahaan.
Microsoft MAI-Image-2 menargetkan generasi gambar untuk kebutuhan komersial
MAI-Image-2 yang pertama kali diluncurkan Microsoft pada 18 Maret jelas menempatkan fokus pada “dapat digunakan untuk komersial” ketimbang sekadar generasi kreatif. Dibandingkan dengan model gambar sebelumnya yang lebih condong ke hiburan atau sifat eksperimen, MAI-Image-2 lebih menekankan stabilitas output dan ketepatan semantik. Model ini dapat mempertahankan konsistensi komposisi dan kelengkapan detail di bawah perintah yang kompleks. Hal ini membuatnya lebih cocok digunakan untuk skenario seperti materi pemasaran merek, visual produk, dan desain iklan.
Bagi perusahaan, nilai model semacam ini tidak terletak pada apakah model tersebut bisa menghasilkan gambar yang memukau, melainkan pada apakah model tersebut dapat terus memproduksi konten yang “dapat digunakan dan dapat dikendalikan”, dan inilah inti yang diperkuat oleh MAI-Image-2.
Clipto membungkam tapi! Microsoft meluncurkan model transkrip rapat berbasis per kata MAI-Transcribe-1
Selanjutnya, MAI-Transcribe-1 yang diluncurkan pada 2 April berfokus pada kemampuan pemahaman suara. Penentuan posisinya cukup jelas: ini adalah lapisan teknologi dasar untuk mengubah suara menjadi data teks terstruktur. Model ini dapat menangani masukan suara secara real-time, dan dalam situasi multi-bahasa serta berbagai aksen tetap menjaga akurasi pengenalan yang tinggi, sekaligus memiliki kemampuan tertentu untuk menahan gangguan dari noise latar.
Kemampuan seperti ini sangat penting dalam skenario perusahaan. Baik untuk transkrip rapat per kata, catatan panggilan layanan pelanggan, maupun perapihan konten media, semuanya bergantung pada kualitas konversi suara ke teks yang stabil. Begitu data suara dapat diubah secara akurat menjadi teks, proses pencarian, peringkasan, dan analisis berikutnya bisa diotomatisasi secara menyeluruh. Inilah peran kunci MAI-Transcribe-1 dalam arsitektur AI secara keseluruhan.
Gunakan model MAI-Voice-1 untuk layanan pelanggan, Podcast suara
MAI-Voice-1 yang sepadan, bertanggung jawab pada sisi keluaran suara. Fokus model ini adalah membuat suara yang dihasilkan AI lebih mendekati penampilan manusia, termasuk naturalitas intonasi, ritme, dan emosi. Ini memungkinkannya diterapkan pada skenario seperti suara layanan pelanggan, asisten AI, sulih suara untuk video, bahkan produksi podcast. Dibandingkan dengan sintesis suara yang lebih mekanis di masa lalu, MAI-Voice-1 lebih menekankan intonasi dan gaya yang dapat disesuaikan, sehingga suara tidak lagi hanya menjadi alat penyampaian informasi, melainkan memiliki kemampuan komunikasi dan ekspresi sebagai antarmuka.
Rekap tiga model AI “lihat, dengar, ucapkan” dari Microsoft
Jika ketiganya dilihat dalam konteks yang sama, terlihat bahwa penataan Microsoft bukan terobosan pada satu titik saja, melainkan dorongan cepat menuju integrasi multimodal. MAI-Image-2 menangani generasi visual, MAI-Transcribe-1 bertanggung jawab untuk pemahaman suara, sedangkan MAI-Voice-1 menyelesaikan generasi suara. Ketiganya bersama-sama membentuk struktur kemampuan dasar “lihat, dengar, ucapkan”.
Begitu kemampuan ini digabungkan dengan model bahasa dan layanan cloud yang sudah ada, mereka dapat membentuk alur kerja AI yang lengkap: dari masukan data, pemahaman, generasi, hingga keluaran—semuanya selesai dalam satu sistem yang sama.
Fitur
MAI-Transcribe-1
( suara ke teks )
MAI-Voice-1 ( teks ke suara ) MAI-Image-2 ( gambar dari teks ) Fungsi utama
Mengubah suara menjadi transkrip per kata
Menghasilkan suara yang alami, lancar, serta bernuansa emosi
Menghasilkan gambar berdasarkan deskripsi teks
Tanggal rilis
2 April 2026
2 April 2026
18 Maret 2026
Teknologi kunci dan fitur
Tahan noise tinggi, pengenalan bahasa otomatis
Kontrol emosi, duplikasi suara (Voice Prompting)
Arsitektur model difusi (Diffusion-based), tingkat keaslian tinggi
Dukungan bahasa
Bahasa Inggris, Cina, Spanyol, dll 25 bahasa
Saat ini hanya bahasa Inggris (akan diperluas menjadi 10+ bahasa)
Utama input berbasis teks (tidak secara khusus menandai dukungan multibahasa)
Skema penetapan harga
Per jam audio $0.36 dolar AS
Per juta kata $22.00 dolar AS
Tergantung platform penerapan (mis. MAI Playground)
Batasan input / output
Input: WAV, MP3, FLAC
Input: teks murni atau SSML
Output: maksimum 1024×1024 piksel
Artikel ini tentang Microsoft merilis tiga model AI “lihat, dengar, ucapkan” untuk menargetkan alur kerja perusahaan AI level komersial pertama kali muncul di ChainNews ABMedia.