國產大模型新進展，光芒照進聽覺領域

2023-08-23 11:47:33

按照傳統看法，AI與大模型等涉及到的機器學習概念主要集中在“視覺”領域，經過不懈努力，現在已經拓展到聽覺領域了。清華大學與火山語音團隊合作，推出認知導向的開源聽覺大模型SALMONN，名稱源於Speech Audio Language Music Open Neural Network的首字母縮寫。 Demo鏈接：

如果僅以人的角度來看，視覺與聽覺是既獨立又配合的信息系統。但從電腦，大模型等涉及到AI的角度來說，從視覺到聽覺的跨越絕非動動嘴或手指那般想像中的簡單，其中的意義可以用美國登月先驅阿姆斯特朗的那句名言概括： “這是我個人的一小步，也是人類的一大步。”

與傳統的語音輸入或語音助手等不同，僅從名字上就不難發現，SALMONN對講話、語音、音頻、音樂等各類音頻信號輸入都具有感知和理解能力，相當於給大模型加上了耳朵，再以此為基礎發展出多語言、跨模態推理等更複雜且高維的能力。具體說來，SALMONN的底層大模型是Vicuna 13B，即著名的“羊駝”，加一個基於Whisper Encoder的通用音頻編碼器，再來一個負責對齊音頻和文本模態的融合器。在這套設施的配合下，SALMONN就對音頻信息具有了直接感知能力。

而傳統的音頻處理手段較為繁瑣，在接受到音頻信號後先要通過API調用底層工具將音頻轉化為文字信息，再將文字信息輸入大模型做後續處理。與之相比，SALMONN可以直接從現實世界獲取知識，並在一些複雜場景中也有很好的理解和處理能力。而且由於訓練數據全部基於文本指令，因此也可以說它擁有跨模態的交互能力。

官方發布的模型解析圖

從目前的消息來看，SALMONN能夠勝任多種多樣的語音相關任務，同時又有多種在訓練時沒有專門學習過的多語言和跨模態能力，如不同語種的語音識別、英語到其他語言的翻譯、對語音內容的摘要與提取關鍵詞、通過音頻生成故事、音頻問答、語音和音頻聯合推理等任務。

根據官方團隊的說法，SALMONN能處理的任務，依據從易到難的程度可以分為三類：1.訓練中就學習過的任務，2.訓練中沒學過，但SALMONN能夠基於文本輸入完成的任務，3.訓練中沒學過，需要直接感知音頻或視頻的多模態大模型才能完成的任務。

如果僅看論文和demo很容易覺得SALMONN“不過如此”，但前面已經提到過，機器視覺與機器聽覺屬於兩個領域，目前經常提到的AGI（通用人工智能）和機器學習等概念裡，關於聽覺的研究仍然以“語音助手”或類似的形式出現，比如十幾年前就登上iPhone的Siri。雖然概念非常前沿，但機器聽覺的發展卻長期不如機器視覺那樣迅速且高產，即使現在AGI，大模型等概念非常火熱，但機器聽覺似乎還是難以引人注目。

**之所以會有如此窘境，主要是因為機器聽覺與機器視覺的先天性差異，以及由此導致的一系列困難。 **過去曾介紹過，蘋果的Siri已經算是質量很好的語音助手了，但依然經常被人嘲諷為“人工智障”。後來又有消息說蘋果對Siri也有諸多不滿，歷次發布會裡對它一直都很少提及，即使提到可能也只是“更智能”“更強大”之類的套話。之前馬克·古爾曼爆料蘋果在秘密開發Apple GPT時也說過，Siri部門長期陷於費力不討好的泥沼中，蘋果多年來一直想為Siri進行一次革命性更新，甚至是為此而單獨規劃生產線，專門出一款新產品，將Apple GPT與Siri集成到一起或許是一種好方法，能識別語音且能用語音控制的大模型，的確是比較酷的。

此次清華大學與火山語音合作推出的SALMONN可能就走在這樣一條路上，也的確展示了全新的玩法，或許沒多久就有更多類似的新產品問世了。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

話題
#GUSD雙重收益
14k 熱度
#DOGE ETF上市
19k 熱度
#我最看好的AI代幣
34k 熱度
#Gate Alpha 上新
50k 熱度
#山寨幣市場回暖
36k 熱度