Yerli büyük ölçekli modellerin yeni atılımı, ışık işitme alanına parlıyor

Geleneksel görüşe göre, yapay zeka ve büyük modellerde yer alan makine öğrenimi kavramları esas olarak "görme" alanında yoğunlaşmış, aralıksız çabaların ardından artık işitme alanına da genişlemiştir. Tsinghua Üniversitesi, adı Speech Audio Language Music Open Neural Network'ün kısaltmasından gelen bilişsel odaklı açık kaynaklı işitsel model SALMONN'u başlatmak için Volcano Konuşma Ekibi ile işbirliği yaptı. Demo bağlantısı:

İnsan açısından bakıldığında, görme ve işitme hem bağımsız hem de koordineli bilgi sistemleridir. Ancak yapay zekayı içeren bilgisayarlar, büyük modeller vb. açısından bakıldığında, görmeden işitmeye geçiş hiçbir şekilde ağzınızı veya parmaklarınızı hareket ettirmek kadar basit değildir.Bunun önemi, ünlü Amerikan ayı deyişiyle özetlenebilir. İniş öncüsü Armstrong: "Bu insan için küçük, insanlık için dev bir adım."

Geleneksel ses girişi veya sesli asistanlardan farklı olarak SALMONN'un konuşma, ses, ses, müzik gibi çeşitli ses sinyali girişlerini algılama ve anlama yeteneğine sahip olduğunu isminden öğrenmek zor değil; Kulakları takmak ve ardından bu temelde çok dilli ve modlar arası akıl yürütme gibi daha karmaşık ve yüksek boyutlu yetenekler geliştirmek. Spesifik olarak, SALMONN'un altında yatan büyük model, ünlü "alpaka" olan Vicuna 13B'nin yanı sıra Whisper Encoder'ı temel alan genel bir ses kodlayıcı ve ses ve metin modalitelerinin hizalanmasından sorumlu bir füzyon cihazıdır. Bu tesislerin işbirliğiyle SALMONN, ses bilgisini doğrudan algılama yeteneğine sahip oluyor.

Bununla birlikte, geleneksel ses işleme yöntemleri nispeten hantaldır.Ses sinyalini aldıktan sonra, sesi metin bilgisine dönüştürmek için API aracılığıyla temel aracı çağırmak ve ardından metin bilgisini sonraki işlem için büyük modele girmek gerekir. Buna karşılık SALMONN, gerçek dünyadan doğrudan bilgi edinebilir ve ayrıca bazı karmaşık senaryolarda iyi anlama ve işleme yeteneklerine sahiptir. Eğitim verilerinin tamamı metin talimatlarına dayandığından modlar arası etkileşim yeteneklerine sahip olduğu da söylenebilir.

Resmi olarak yayınlanan model analiz şeması

Güncel haberlere göre, SALMONN konuşmayla ilgili çeşitli görevleri yerine getirme yeteneğine sahiptir ve aynı zamanda konuşma tanıma gibi eğitim sırasında özel olarak öğrenilmemiş çeşitli çok dilli ve modlar arası yeteneklere de sahiptir farklı dillerde, İngilizceden diğer dillere çeviri, konuşma içeriğinin özetlenmesi ve anahtar kelime çıkarımı, sesten hikaye oluşturma, sesli soru cevaplama, konuşma ve sesin ortak akıl yürütmesi vb.

Resmi ekibe göre SALMONN'un üstesinden gelebileceği görevler, kolaydan zora doğru derecesine göre üç kategoriye ayrılabilir: 1. Eğitim sırasında öğrenilen görevler, 2. Eğitim sırasında öğrenilmeyen ancak SALMONN'un yerine getirdiği görevler. metin girişine göre tamamlanabilir 3. Eğitimde öğrenilmemiş ve tamamlanması için ses veya videoyu doğrudan algılayan çok modlu büyük bir model gerektiren görevler.

Yalnızca makaleleri ve demoları okursanız, SALMONN'un "tam da bu" olduğunu düşünmek kolaydır, ancak daha önce de belirtildiği gibi makine görüşü ve makine işitmesi iki alana aittir.AGI (Genel Yapay Zeka) ve makine öğrenimi gibi kavramlar arasında İşitme üzerine yapılan araştırmalar hâlâ "sesli asistanlar" veya bir düzine yıl önce iPhone'a gelen Siri gibi benzerleri biçiminde geliyor. Konsept çok ileri teknoloji olmasına rağmen, makine işitmesinin gelişimi uzun süredir makine görüşü kadar hızlı ve verimli olmamıştır.AGI ve büyük modeller gibi kavramlar çok sıcak olmasına rağmen makine işitmesi hala göze çarpmayan görünmektedir.

**Böyle bir ikilemin nedeni, esas olarak makine işitmesi ile makine görüşü arasındaki doğuştan gelen farklılıklardan ve bunun neden olduğu bir dizi zorluktan kaynaklanmaktadır. **Geçmişte Apple'ın Siri'sinin zaten kaliteli bir ses asistanı olduğu söylenmişti, ancak hâlâ "yapay zeka geriliği" olarak alay konusu ediliyor. Daha sonra Apple'ın da Siri ile ilgili çok fazla memnuniyetsizliği olduğu bildirildi.Daha önceki konferanslarda bundan nadiren bahsedildi.Anlatılsa bile "daha akıllı" ve "daha güçlü" olabilir. Mark Gurman, Apple'ın gizlice Apple GPT'yi geliştirirken de söylediği haberini vermeden önce, Siri departmanı uzun süredir nankör bir bataklığa saplanmıştı.Apple uzun yıllardır Siri için devrim niteliğinde bir güncelleme yapmaya çalışıyor, hatta planlıyordu. Bu amaçla ayrı bir üretim hattı. Yeni bir ürün yaratmak için Apple GPT ve Siri'yi bir araya entegre etmek iyi bir yol olabilir, sesi tanıyabilen ve sesle kontrol edilebilen büyük bir model gerçekten harika.

Tsinghua Üniversitesi ve Volcano Voice'un ortaklaşa başlattığı SALMONN da böyle bir yolda olabilir ve gerçekten de yeni bir oynanış örneği sergiledi.Belki yakın zamanda daha benzer yeni ürünler de ortaya çıkabilir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)