3 coisas que a área da robótica me ensinou em 2025 @DrJimFan
1⃣O hardware está à frente do software, mas a fiabilidade do hardware limita severamente as iterações do software. Já vimos algumas das obras-primas de engenharia mais requintadas: Optimus, e-Atlas, Figure, Neo, G1 e muitos mais. Mas o problema é que a nossa melhor IA está longe de extrair o potencial deste hardware de ponta. A capacidade do corpo (robótico) é significativamente mais forte do que as instruções que o cérebro pode atualmente enviar. No entanto, para "servir" estes robôs, é frequentemente necessária uma equipa inteira de operação e manutenção. Os robôs não se curam como os humanos: sobreaquecimento, motores avariados, problemas estranhos de firmware, pesadelos quase todos os dias. Quando ocorre um erro, torna-se irreversível e intolerante. A única coisa que realmente me escalou foi a minha paciência.
2⃣O benchmarking no campo da robótica continua a ser um desastre épico. No mundo dos grandes modelos, toda a gente sabe do que se trata o MMLU e o SWE-Bench. Mas não há consenso no campo da robótica: que plataforma de hardware usar, como definir a tarefa, quais são os critérios de pontuação, que simulador usar, ou diretamente para o mundo real? Por definição, todos são SOTA – porque cada vez que uma notícia é publicada, um novo marco é temporariamente definido. Toda a gente vai escolher a melhor demo entre 100 falhas. Até 2026, a nossa área terá de melhorar e deixar de tratar a reprodutibilidade e as normas científicas como cidadãos de segunda classe.
3⃣A via do VLA baseada no VLM nunca me parece muito correta. VLA refere-se ao modelo Visão-Linguagem-Ação, que é atualmente o paradigma principal dos cérebros robóticos. A receita também é simples: pegar num ponto de controlo VLM pré-treinado e "enxertar" um módulo de ação nele. Mas se pensares bem, vais encontrar um problema. O VLM é essencialmente altamente otimizado para subir benchmarks como a resposta visual a perguntas, o que tem duas consequências diretas: a maioria dos parâmetros do VLM serve a linguagem e o conhecimento, não o mundo físico; Os codificadores de visão são ativamente treinados para descartar detalhes de baixo nível porque as tarefas de resposta a perguntas só exigem compreensão de alto nível, mas para os robôs, pequenos detalhes são cruciais para uma operação ágil. Portanto, não há razão para o desempenho do VLA aumentar linearmente à medida que o tamanho dos parâmetros do VLM aumenta. O problema é que os objetivos pré-treino em si não estão alinhados. #AI #Robtics
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
3 coisas que a área da robótica me ensinou em 2025 @DrJimFan
1⃣O hardware está à frente do software, mas a fiabilidade do hardware limita severamente as iterações do software. Já vimos algumas das obras-primas de engenharia mais requintadas: Optimus, e-Atlas, Figure, Neo, G1 e muitos mais. Mas o problema é que a nossa melhor IA está longe de extrair o potencial deste hardware de ponta. A capacidade do corpo (robótico) é significativamente mais forte do que as instruções que o cérebro pode atualmente enviar. No entanto, para "servir" estes robôs, é frequentemente necessária uma equipa inteira de operação e manutenção. Os robôs não se curam como os humanos: sobreaquecimento, motores avariados, problemas estranhos de firmware, pesadelos quase todos os dias. Quando ocorre um erro, torna-se irreversível e intolerante. A única coisa que realmente me escalou foi a minha paciência.
2⃣O benchmarking no campo da robótica continua a ser um desastre épico. No mundo dos grandes modelos, toda a gente sabe do que se trata o MMLU e o SWE-Bench. Mas não há consenso no campo da robótica: que plataforma de hardware usar, como definir a tarefa, quais são os critérios de pontuação, que simulador usar, ou diretamente para o mundo real? Por definição, todos são SOTA – porque cada vez que uma notícia é publicada, um novo marco é temporariamente definido. Toda a gente vai escolher a melhor demo entre 100 falhas. Até 2026, a nossa área terá de melhorar e deixar de tratar a reprodutibilidade e as normas científicas como cidadãos de segunda classe.
3⃣A via do VLA baseada no VLM nunca me parece muito correta. VLA refere-se ao modelo Visão-Linguagem-Ação, que é atualmente o paradigma principal dos cérebros robóticos. A receita também é simples: pegar num ponto de controlo VLM pré-treinado e "enxertar" um módulo de ação nele. Mas se pensares bem, vais encontrar um problema. O VLM é essencialmente altamente otimizado para subir benchmarks como a resposta visual a perguntas, o que tem duas consequências diretas: a maioria dos parâmetros do VLM serve a linguagem e o conhecimento, não o mundo físico; Os codificadores de visão são ativamente treinados para descartar detalhes de baixo nível porque as tarefas de resposta a perguntas só exigem compreensão de alto nível, mas para os robôs, pequenos detalhes são cruciais para uma operação ágil. Portanto, não há razão para o desempenho do VLA aumentar linearmente à medida que o tamanho dos parâmetros do VLM aumenta. O problema é que os objetivos pré-treino em si não estão alinhados. #AI #Robtics