SCENEを見る
ロボットとマルチモーダル人工知能はまだ物理的な世界を把握できません。この短所は、ある著名な研究者によれば、現在この分野の最大の障害です。
スタンフォード大学のコンピュータ科学者であり、現代コンピュータビジョンの先駆者として広く知られるフェイフェイ・リーは、AIと物理的現実のギャップがテクノロジーの最も緊急の問題になっていると述べ、このギャップを埋めるには、言語だけではなく空間的推論を中心に構築されたシステムが必要だと主張しています。
AIはテキストベースの学習の限界に近づいており、進展は最終的に「世界モデル」に依存すると、李氏は月曜日に発表された報告書の中で述べた。
“空間知能を解放する核心は、世界モデルの開発にあります—これは、LLMとは根本的に異なる課題に対処しなければならない新しいタイプの生成AIです。” とLiはXで書きました。 “これらのモデルは、物理法則に従った空間的一貫性のある世界を生成し、画像から行動までのマルチモーダル入力を処理し、それらの世界が時間を経てどのように進化するか、またはどのように相互作用されるかを予測しなければなりません。”
「世界モデル」という概念は1940年代初頭にさかのぼり、スコットランドの哲学者で心理学者のケネス・クレイクが認知科学の研究を行った。
このアイデアは、デビッド・ハとユルゲン・シュミットフーバーの2018年の論文が、ニューラルネットワークが環境のコンパクトな内部モデルを学習し、それを計画と制御のためのシミュレーターとして使用できることを示した後、現代のAIで再浮上しました。
リは、ロボットやマルチモーダルシステムが依然として基盤となる空間的推論に苦しんでいるため、世界モデルが重要であると主張しました。そのため、これらのシステムは距離やシーンの変化を判断したり、基本的な物理的結果を予測したりすることができません。
"人間の協力者としてのロボットは、研究室のベンチで科学者を助けたり、一人暮らしの高齢者を支援したりすることで、労働力と生産性が切実に必要とされている部分を拡大できる"と李は書いた。現実の環境は、現在の機械が捉えられないルールに従うと、李は主張する。
重力が動きを形成し、物質が光に影響を与えることから、これを解決するには空間的記憶を保存し、2次元以上のシーンをモデル化できるシステムが必要です。
9月に、Liの会社であるWorld Labsは、テキストや画像のプロンプトから探索可能な三次元環境を生成する初期の世界モデルであるMarbleのベータ版をリリースしました。
ユーザーは、時間制限やシーンの漂流なしにこれらの世界を歩き回ることができ、環境は一貫しており、変形したり崩れたりすることはないと、同社は主張しています。
「マーブルは、真に空間的にインテリジェントな世界モデルを作成するための最初のステップに過ぎません」と李は書きました。「進展が加速するにつれて、研究者、エンジニア、ユーザー、ビジネスリーダーたちがその驚異的な可能性を認識し始めています。次世代の世界モデルは、機械がまったく新しいレベルで空間知性を達成できるようにします—これは、今日のAIシステムにはまだほとんど欠けている重要な能力を解放する成果です。」
李は、世界モデルのユースケースには、環境がどのように機能するかについてAIに内部的な理解を与えるため、さまざまなアプリケーションをサポートすることが含まれていると述べました。
クリエイターは、リアルタイムでシーンを探索するためにそれらを使用でき、ロボットはそれらに依存して物体をより安全にナビゲートし、扱うことができ、科学や医療の研究者は空間シミュレーションを実行したり、画像処理や実験室の自動化を改善したりすることができます。
リーは空間知能の研究を初期の生物学的研究に結びつけ、人間は言語を発達させるずっと前から知覚し、行動することを学んだことに言及した。
“書き言葉が存在するずっと前から、人間は物語を語り—洞窟の壁に描き、世代を超えて伝え、共有された物語の上に文化全体を築いてきました。” 彼女は書きました。 “物語は私たちが世界を理解し、距離と時間を超えてつながり、人間であることの意味を探求し、最も重要なこととして、人生と愛の中に自分自身の意味を見出す方法です。”
リーは、AIが物理的な世界で機能するためには同じ基盤が必要であり、その役割は人々を支援することであって、置き換えることではないと主張しました。しかし、進歩は、世界がどのように機能するかを理解するモデルに依存することになるでしょう。
"AIの次のフロンティアは空間知能であり、これは見ることを推論に、知覚を行動に、想像を創造に変える技術です"と李は言った。
4.84K 人気度
82.95K 人気度
13.26K 人気度
18.16K 人気度
5.97K 人気度
AIの進歩は今や物理的現実を把握する「世界モデル」に依存している
簡潔に言うと
デクリプトのアート、ファッション、エンターテインメントハブ。
SCENEを見る
ロボットとマルチモーダル人工知能はまだ物理的な世界を把握できません。この短所は、ある著名な研究者によれば、現在この分野の最大の障害です。
スタンフォード大学のコンピュータ科学者であり、現代コンピュータビジョンの先駆者として広く知られるフェイフェイ・リーは、AIと物理的現実のギャップがテクノロジーの最も緊急の問題になっていると述べ、このギャップを埋めるには、言語だけではなく空間的推論を中心に構築されたシステムが必要だと主張しています。
AIはテキストベースの学習の限界に近づいており、進展は最終的に「世界モデル」に依存すると、李氏は月曜日に発表された報告書の中で述べた。
“空間知能を解放する核心は、世界モデルの開発にあります—これは、LLMとは根本的に異なる課題に対処しなければならない新しいタイプの生成AIです。” とLiはXで書きました。 “これらのモデルは、物理法則に従った空間的一貫性のある世界を生成し、画像から行動までのマルチモーダル入力を処理し、それらの世界が時間を経てどのように進化するか、またはどのように相互作用されるかを予測しなければなりません。”
これらのモデルは一体何ですか?
「世界モデル」という概念は1940年代初頭にさかのぼり、スコットランドの哲学者で心理学者のケネス・クレイクが認知科学の研究を行った。
このアイデアは、デビッド・ハとユルゲン・シュミットフーバーの2018年の論文が、ニューラルネットワークが環境のコンパクトな内部モデルを学習し、それを計画と制御のためのシミュレーターとして使用できることを示した後、現代のAIで再浮上しました。
リは、ロボットやマルチモーダルシステムが依然として基盤となる空間的推論に苦しんでいるため、世界モデルが重要であると主張しました。そのため、これらのシステムは距離やシーンの変化を判断したり、基本的な物理的結果を予測したりすることができません。
"人間の協力者としてのロボットは、研究室のベンチで科学者を助けたり、一人暮らしの高齢者を支援したりすることで、労働力と生産性が切実に必要とされている部分を拡大できる"と李は書いた。現実の環境は、現在の機械が捉えられないルールに従うと、李は主張する。
重力が動きを形成し、物質が光に影響を与えることから、これを解決するには空間的記憶を保存し、2次元以上のシーンをモデル化できるシステムが必要です。
9月に、Liの会社であるWorld Labsは、テキストや画像のプロンプトから探索可能な三次元環境を生成する初期の世界モデルであるMarbleのベータ版をリリースしました。
ユーザーは、時間制限やシーンの漂流なしにこれらの世界を歩き回ることができ、環境は一貫しており、変形したり崩れたりすることはないと、同社は主張しています。
「マーブルは、真に空間的にインテリジェントな世界モデルを作成するための最初のステップに過ぎません」と李は書きました。「進展が加速するにつれて、研究者、エンジニア、ユーザー、ビジネスリーダーたちがその驚異的な可能性を認識し始めています。次世代の世界モデルは、機械がまったく新しいレベルで空間知性を達成できるようにします—これは、今日のAIシステムにはまだほとんど欠けている重要な能力を解放する成果です。」
李は、世界モデルのユースケースには、環境がどのように機能するかについてAIに内部的な理解を与えるため、さまざまなアプリケーションをサポートすることが含まれていると述べました。
クリエイターは、リアルタイムでシーンを探索するためにそれらを使用でき、ロボットはそれらに依存して物体をより安全にナビゲートし、扱うことができ、科学や医療の研究者は空間シミュレーションを実行したり、画像処理や実験室の自動化を改善したりすることができます。
リーは空間知能の研究を初期の生物学的研究に結びつけ、人間は言語を発達させるずっと前から知覚し、行動することを学んだことに言及した。
“書き言葉が存在するずっと前から、人間は物語を語り—洞窟の壁に描き、世代を超えて伝え、共有された物語の上に文化全体を築いてきました。” 彼女は書きました。 “物語は私たちが世界を理解し、距離と時間を超えてつながり、人間であることの意味を探求し、最も重要なこととして、人生と愛の中に自分自身の意味を見出す方法です。”
リーは、AIが物理的な世界で機能するためには同じ基盤が必要であり、その役割は人々を支援することであって、置き換えることではないと主張しました。しかし、進歩は、世界がどのように機能するかを理解するモデルに依存することになるでしょう。
"AIの次のフロンティアは空間知能であり、これは見ることを推論に、知覚を行動に、想像を創造に変える技術です"と李は言った。