2025-12-29 10:39:00

2025年，ロボット分野から学んだ3つのこと @DrJimFan

1⃣️ハードウェアはソフトウェアより先行しているが、ハードウェアの信頼性はソフトウェアのイテレーション速度を著しく制限している。私たちはすでに極めて巧妙な工学の傑作を目にしている：Optimus、e-Atlas、Figure、Neo、G1など。しかし問題は、私たちの最良のAIでさえこれらの最先端ハードウェアの潜在能力を完全に引き出せていないことだ。（ロボットの）身体の能力は、現在の指令を出す脳よりも明らかに強力だ。しかし、これらのロボットを“お世話”するには、しばしば運用チーム全体が必要となる。ロボットは人間のように自己修復しない：過熱、モーターの故障、奇妙なファームウェアの問題は、ほぼ日常の悪夢だ。エラーが発生すると、それは不可逆であり、寛容性も低い。本当にスケーリングされているのは、私の忍耐だけだ。

2⃣️ロボット分野のベンチマークテストは、依然として史上最大の災害だ。大規模モデルの世界では、誰もがMMLUやSWE-Benchのことを知っている。しかし、ロボット分野には共通認識がない：どのハードウェアプラットフォームを使うか、タスクはどう定義するか、評価基準は何か、どのシミュレーターを使うか、それとも直接実世界に行くのか？定義上、誰もがSOTAだ——なぜなら、毎回ニュースを出すたびに、新しいベンチマークを臨時に定義しているからだ。誰もが100回の失敗から、最も良いデモを選び出す。2026年までに、この分野はもっと良くなる必要がある。再現性と科学的規範を二等市民扱いしてはいけない。

3⃣️VLMに基づくVLAルートは、どうも正しくない気がする。VLAはVision-Language-Action（視覚-言語-動作）モデルを指し、これは現在、ロボットの脳の主流パラダイムだ。レシピは非常にシンプル：事前学習済みのVLMチェックポイントを取り、それに“接続”して動作モジュールを追加するだけだ。しかし、よく考えると問題が見えてくる。VLMは本質的に、視覚質問応答のようなベンチマークを高速でクリアするために高度に最適化されている。これにより二つの結果が生じる：VLMのほとんどのパラメータは言語と知識にサービスしており、物理世界にはあまり関与しない；視覚エンコーダーは、低層の詳細を捨てるように積極的に訓練されている。なぜなら、質問応答タスクは高層の理解だけで十分だからだ。しかし、ロボットにとっては、微細な詳細が巧妙な操作にとって非常に重要だ。したがって、VLAの性能は、VLMパラメータの規模が拡大するにつれて線形に向上する理由がない。問題は、事前学習の目標自体が一致していないことにある。#AI #Robtics

原文表示