広場
最新
注目
ニュース
プロフィール
ポスト
LeoLau
2025-12-29 10:39:00
フォロー
2025年,ロボット分野から学んだ3つのこと @DrJimFan
1⃣️ハードウェアはソフトウェアより先行しているが、ハードウェアの信頼性はソフトウェアのイテレーション速度を著しく制限している。私たちはすでに極めて巧妙な工学の傑作を目にしている:Optimus、e-Atlas、Figure、Neo、G1など。しかし問題は、私たちの最良のAIでさえこれらの最先端ハードウェアの潜在能力を完全に引き出せていないことだ。(ロボットの)身体の能力は、現在の指令を出す脳よりも明らかに強力だ。しかし、これらのロボットを“お世話”するには、しばしば運用チーム全体が必要となる。ロボットは人間のように自己修復しない:過熱、モーターの故障、奇妙なファームウェアの問題は、ほぼ日常の悪夢だ。エラーが発生すると、それは不可逆であり、寛容性も低い。本当にスケーリングされているのは、私の忍耐だけだ。
2⃣️ロボット分野のベンチマークテストは、依然として史上最大の災害だ。大規模モデルの世界では、誰もがMMLUやSWE-Benchのことを知っている。しかし、ロボット分野には共通認識がない:どのハードウェアプラットフォームを使うか、タスクはどう定義するか、評価基準は何か、どのシミュレーターを使うか、それとも直接実世界に行くのか?定義上、誰もがSOTAだ——なぜなら、毎回ニュースを出すたびに、新しいベンチマークを臨時に定義しているからだ。誰もが100回の失敗から、最も良いデモを選び出す。2026年までに、この分野はもっと良くなる必要がある。再現性と科学的規範を二等市民扱いしてはいけない。
3⃣️VLMに基づくVLAルートは、どうも正しくない気がする。VLAはVision-Language-Action(視覚-言語-動作)モデルを指し、これは現在、ロボットの脳の主流パラダイムだ。レシピは非常にシンプル:事前学習済みのVLMチェックポイントを取り、それに“接続”して動作モジュールを追加するだけだ。しかし、よく考えると問題が見えてくる。VLMは本質的に、視覚質問応答のようなベンチマークを高速でクリアするために高度に最適化されている。これにより二つの結果が生じる:VLMのほとんどのパラメータは言語と知識にサービスしており、物理世界にはあまり関与しない;視覚エンコーダーは、低層の詳細を捨てるように積極的に訓練されている。なぜなら、質問応答タスクは高層の理解だけで十分だからだ。しかし、ロボットにとっては、微細な詳細が巧妙な操作にとって非常に重要だ。したがって、VLAの性能は、VLMパラメータの規模が拡大するにつれて線形に向上する理由がない。問題は、事前学習の目標自体が一致していないことにある。#AI #Robtics
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
Gate2025AnnualReportComing
141.97K 人気度
#
CryptoMarketPrediction
16.31K 人気度
#
BitcoinGoldBattle
69.64K 人気度
#
ETFLeveragedTokenTradingCarnival
1.67K 人気度
#
StablecoinsGoingMainstream
2.69K 人気度
人気の Gate Fun
もっと見る
最新
ファイナライズ中
リスト済み
1
G银
G银
時価総額:
$4K
保有者数:
2
2.07%
2
RAPTOR
Philosoraptor
時価総額:
$3.55K
保有者数:
1
0.00%
3
GS
Gold Standard
時価総額:
$3.58K
保有者数:
17
0.08%
4
GTW
Gateway To Web3
時価総額:
$3.75K
保有者数:
2
0.00%
5
GoogleAi
Google Ai Coin
時価総額:
$3.89K
保有者数:
21
1.77%
ピン
サイトマップ
2025年,ロボット分野から学んだ3つのこと @DrJimFan
1⃣️ハードウェアはソフトウェアより先行しているが、ハードウェアの信頼性はソフトウェアのイテレーション速度を著しく制限している。私たちはすでに極めて巧妙な工学の傑作を目にしている:Optimus、e-Atlas、Figure、Neo、G1など。しかし問題は、私たちの最良のAIでさえこれらの最先端ハードウェアの潜在能力を完全に引き出せていないことだ。(ロボットの)身体の能力は、現在の指令を出す脳よりも明らかに強力だ。しかし、これらのロボットを“お世話”するには、しばしば運用チーム全体が必要となる。ロボットは人間のように自己修復しない:過熱、モーターの故障、奇妙なファームウェアの問題は、ほぼ日常の悪夢だ。エラーが発生すると、それは不可逆であり、寛容性も低い。本当にスケーリングされているのは、私の忍耐だけだ。
2⃣️ロボット分野のベンチマークテストは、依然として史上最大の災害だ。大規模モデルの世界では、誰もがMMLUやSWE-Benchのことを知っている。しかし、ロボット分野には共通認識がない:どのハードウェアプラットフォームを使うか、タスクはどう定義するか、評価基準は何か、どのシミュレーターを使うか、それとも直接実世界に行くのか?定義上、誰もがSOTAだ——なぜなら、毎回ニュースを出すたびに、新しいベンチマークを臨時に定義しているからだ。誰もが100回の失敗から、最も良いデモを選び出す。2026年までに、この分野はもっと良くなる必要がある。再現性と科学的規範を二等市民扱いしてはいけない。
3⃣️VLMに基づくVLAルートは、どうも正しくない気がする。VLAはVision-Language-Action(視覚-言語-動作)モデルを指し、これは現在、ロボットの脳の主流パラダイムだ。レシピは非常にシンプル:事前学習済みのVLMチェックポイントを取り、それに“接続”して動作モジュールを追加するだけだ。しかし、よく考えると問題が見えてくる。VLMは本質的に、視覚質問応答のようなベンチマークを高速でクリアするために高度に最適化されている。これにより二つの結果が生じる:VLMのほとんどのパラメータは言語と知識にサービスしており、物理世界にはあまり関与しない;視覚エンコーダーは、低層の詳細を捨てるように積極的に訓練されている。なぜなら、質問応答タスクは高層の理解だけで十分だからだ。しかし、ロボットにとっては、微細な詳細が巧妙な操作にとって非常に重要だ。したがって、VLAの性能は、VLMパラメータの規模が拡大するにつれて線形に向上する理由がない。問題は、事前学習の目標自体が一致していないことにある。#AI #Robtics