2025-12-29 10:39:00

En 2025, les 3 choses que le domaine de la robotique m’a enseignées @DrJimFan

1⃣️Le matériel précède le logiciel, mais la fiabilité du matériel limite gravement la vitesse d’itération du logiciel. Nous avons déjà vu des chefs-d'œuvre d’ingénierie extrêmement sophistiqués : Optimus, e-Atlas, Figure, Neo, G1, etc. Mais le problème est que nos meilleures IA n’ont pas encore exploité tout le potentiel de ces matériels de pointe. La capacité du corps (des robots), clairement supérieure aux instructions que le cerveau peut émettre actuellement. Cependant, pour “servir” ces robots, il faut souvent une équipe de maintenance entière. Les robots ne peuvent pas s’auto-réparer comme les humains : surchauffe, défaillance du moteur, problèmes de firmware étranges, c’est presque un cauchemar quotidien. Une erreur, une fois survenue, est irréversible et impardonnable. La seule chose qui se scale vraiment, c’est ma patience.

2⃣️Les benchmarks dans le domaine de la robotique restent une catastrophe épique. Dans le monde des grands modèles, tout le monde connaît MMLU, SWE-Bench, etc. Mais dans la robotique, il n’y a aucun consensus : quelle plateforme matérielle utiliser, comment définir la tâche, quels sont les critères d’évaluation, quel simulateur utiliser, ou faut-il directement passer au monde réel ? Selon la définition, chacun est SOTA — car à chaque annonce, on définit un nouveau benchmark à la volée. Chacun choisit la démo la plus impressionnante parmi 100 échecs. En 2026, notre domaine doit faire mieux, ne plus considérer la reproductibilité et la rigueur scientifique comme des second-class citizens.

3⃣️La voie VLA basée sur VLM, j’ai toujours l’impression que ce n’est pas tout à fait ça. VLA désigne Vision-Language-Action (vision-langage-action), c’est actuellement le paradigme dominant pour le cerveau des robots. La recette est simple : prendre un checkpoint VLM pré-entraîné, y “ajouter” un module d’action. Mais en y réfléchissant, on voit le problème. VLM est essentiellement optimisé pour des benchmarks comme la question-réponse visuelle, ce qui entraîne deux conséquences : la majorité des paramètres VLM servent au langage et à la connaissance, pas au monde physique ; l’encodeur visuel est entraîné pour abandonner les détails de bas niveau, car la tâche de question-réponse ne nécessite qu’une compréhension de haut niveau. Mais pour un robot, les détails fins sont cruciaux pour une manipulation agile. Donc, la performance VLA ne devrait pas augmenter linéairement avec la taille des paramètres VLM. Le problème vient du fait que l’objectif de pré-entraînement n’est pas aligné. #AI #Robtics

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.