国産大型モデルの新たな進化、聴覚分野に光を当てる

従来の見方では、AIや大型モデルに関わる機械学習の概念は主に「視覚」の分野に集中していましたが、たゆまぬ努力を経て、現在では聴覚の分野にも広がりを見せています。清華大学は火山音声チームと協力して、認知指向のオープンソース聴覚モデル SALMONN を立ち上げました。SALMONN の名前は、Speech Audio Language Music Open Neural Network の頭字語に由来しています。デモリンク:

人間の観点から見ると、視覚と聴覚はどちらも独立した協調的な情報システムです。しかし、AIを使ったコンピュータや大型模型などの観点から見ると、視覚から聴覚への飛躍は口や指を動かすほど単純なものではなく、その重要性はアメリカの有名な「月」の言葉に集約されます。上陸先駆者アームストロング: 「これは人間にとっては小さな一歩ですが、人類にとっては大きな飛躍です。」

従来の音声入力や音声アシスタントとは異なり、SALMONN は音声、音声、オーディオ、音楽などのさまざまなオーディオ信号入力を認識して理解する能力を持っていることを名前から知るのは難しくありません。耳を付け、これをベースに多言語やクロスモーダルな推論など、より複雑で高次元の能力を開発します。具体的には、SALMONN の基礎となる大規模モデルは、有名な「アルパカ」である Vicuna 13B に加え、Whisper Encoder に基づく一般的なオーディオ エンコーダー、およびオーディオとテキストのモダリティの調整を担当する融合デバイスです。この一連の設備の協力により、SALMONN は音声情報を直接認識する機能を備えています。

しかし、従来の音声処理方法は比較的煩雑であり、音声信号を受信した後、API を介して基礎となるツールを呼び出して音声をテキスト情報に変換し、その後の処理のためにそのテキスト情報を大規模なモデルに入力する必要があります。対照的に、SALMONN は現実世界から知識を直接取得でき、一部の複雑なシナリオでも優れた理解力と処理能力を備えています。また、トレーニング データはすべてテキストの指示に基づいているため、クロスモーダル インタラクション機能があるとも言えます。

正式に公開されたモデル解析図

現在のニュースから判断すると、SALMONN はさまざまな音声関連タスクが可能であると同時に、音声認識など、トレーニング中に特別に学習されていないさまざまな多言語およびクロスモーダル機能を備えています。多言語化、英語から他言語への翻訳、音声内容の要約とキーワード抽出、音声からのストーリー生成、音声質問応答、音声と音声の共同推論など。

公式チームによると、SALMONNが扱えるタスクは、簡単なものから難しいものの程度に応じて、1. トレーニング中に習得したタスク、2. トレーニング中に習得していないタスクの3つのカテゴリに分類されるとのことですが、SALMONNテキスト入力に基づいて完了できます。 3. トレーニングで学習されていないタスクで、完了するには音声またはビデオを直接認識するマルチモーダルな大規模モデルが必要です。

論文やデモだけを読むとSALMONNは「それだけ」と思われがちですが、前述したように機械視覚と機械聴覚はAGI(汎用人工知能)や機械学習といった概念の中でも2つの分野に属します。よく言われることですが、聴覚に関する研究は今でも「音声アシスタント」や、十数年前にiPhoneに搭載されたSiriのような形で行われています。この概念は非常に最先端ですが、機械聴覚の開発は、長い間、機械視覚ほど迅速かつ生産的ではありませんでした。AGI や大型モデルなどの概念が非常に注目されているにもかかわらず、機械聴覚はまだ目立たないようです。

**このようなジレンマの理由は主に、機械聴覚と機械視覚の生得的な違いと、それによって引き起こされる一連の困難によるものです。 **Apple の Siri はすでに高品質の音声アシスタントであることは過去に紹介されましたが、依然として「人工的な精神遅滞」と揶揄されることがよくあります。その後、Apple も Siri に多くの不満を抱いていると報じられましたが、これまでのカンファレンスではほとんど言及されておらず、言及されたとしても単に「より賢くなった」「より強力になった」だけかもしれません。マーク・ガーマン氏がこのニュースを発表する前に、アップルは「Apple GPT」を極秘に開発した際に、「Siri部門は長い間報われない泥沼にはまっていた」とも語っていたとのことで、Appleは長年にわたってSiriの革新的なアップデートを試みており、計画さえしていたという。この目的のための別の生産ライン、新しい製品を作成するには、Apple GPT と Siri を統合するのが良い方法かもしれません、音声を認識でき、音声で制御できる大型モデルは本当にクールです。

清華大学とVolcano Voiceが共同で立ち上げたSALMONNもそのような道を進んでいるのか、確かに新しいゲーム性を実証しており、近いうちにさらに同様の新製品が登場するかもしれない。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)