通义はVibe Codingを全モーダルに組み込み、Qwen3.5-Omniは215項目のSOTAを獲得しました

BlockBeatNews

1M AI Newsのモニタリングによると、Tongyi Labはマルチモーダル全般モデルQwen3.5-Omniを発表し、テキスト、画像、音声、および音声・映像(音動画)の入力をサポートしており、タイムスタンプ付きのきめ細かな音声・映像Captionを生成できます。公式によれば、Qwen3.5-Omni-Plusは、音声および音動画分析、推論、対話、翻訳などのタスクで215項目のSOTAを獲得しており、関連能力はGemini-3.1-Proを上回ります。

今回いちばん特別な増分は、ランキングではなく「自然に湧き上がるAudio-Visual Vibe Coding能力」です。Tongyiは、このモデルは特別なトレーニングを受けていないにもかかわらず、音声・映像の指示に基づいて直接実行可能なコードを生成できると述べています。公式ではさらに、このモデルは256Kのコンテキスト、113種類の言語認識に対応し、10時間分の音声または1時間分の動画を扱え、ネイティブでWebSearchおよび複雑なFunction Callをサポートするとしています。

Qwen3.5-OmniはThinker-Talkerの分業アーキテクチャを継承し、2つの部分はいずれもHybrid-Attention MoEへアップグレードされています。TongyiはAlibaba Cloudの百炼を通じてPlus、Flash、Lightの3つのサイズを提供し、さらにリアルタイム版Qwen3.5-Omni-Plus-Realtimeを公開しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし