2025年,ロボット分野から学んだ3つのこと @DrJimFan



1⃣️ハードウェアはソフトウェアより先行しているが、ハードウェアの信頼性はソフトウェアのイテレーション速度を著しく制限している。私たちはすでに極めて巧妙な工学の傑作を目にしている:Optimus、e-Atlas、Figure、Neo、G1など。しかし問題は、私たちの最良のAIでさえこれらの最先端ハードウェアの潜在能力を完全に引き出せていないことだ。(ロボットの)身体の能力は、現在の指令を出す脳よりも明らかに強力だ。しかし、これらのロボットを“お世話”するには、しばしば運用チーム全体が必要となる。ロボットは人間のように自己修復しない:過熱、モーターの故障、奇妙なファームウェアの問題は、ほぼ日常の悪夢だ。エラーが発生すると、それは不可逆であり、寛容性も低い。本当にスケーリングされているのは、私の忍耐だけだ。

2⃣️ロボット分野のベンチマークテストは、依然として史上最大の災害だ。大規模モデルの世界では、誰もがMMLUやSWE-Benchのことを知っている。しかし、ロボット分野には共通認識がない:どのハードウェアプラットフォームを使うか、タスクはどう定義するか、評価基準は何か、どのシミュレーターを使うか、それとも直接実世界に行くのか?定義上、誰もがSOTAだ——なぜなら、毎回ニュースを出すたびに、新しいベンチマークを臨時に定義しているからだ。誰もが100回の失敗から、最も良いデモを選び出す。2026年までに、この分野はもっと良くなる必要がある。再現性と科学的規範を二等市民扱いしてはいけない。

3⃣️VLMに基づくVLAルートは、どうも正しくない気がする。VLAはVision-Language-Action(視覚-言語-動作)モデルを指し、これは現在、ロボットの脳の主流パラダイムだ。レシピは非常にシンプル:事前学習済みのVLMチェックポイントを取り、それに“接続”して動作モジュールを追加するだけだ。しかし、よく考えると問題が見えてくる。VLMは本質的に、視覚質問応答のようなベンチマークを高速でクリアするために高度に最適化されている。これにより二つの結果が生じる:VLMのほとんどのパラメータは言語と知識にサービスしており、物理世界にはあまり関与しない;視覚エンコーダーは、低層の詳細を捨てるように積極的に訓練されている。なぜなら、質問応答タスクは高層の理解だけで十分だからだ。しかし、ロボットにとっては、微細な詳細が巧妙な操作にとって非常に重要だ。したがって、VLAの性能は、VLMパラメータの規模が拡大するにつれて線形に向上する理由がない。問題は、事前学習の目標自体が一致していないことにある。#AI #Robtics
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン