La profesora de informática de Stanford, Fei-Fei Li, dijo que el progreso de la IA ahora está limitado por sistemas que no pueden entender el espacio físico.
Los modelos del mundo están diseñados para simular entornos y predecir cómo cambian las escenas con el tiempo.
Prototipos tempranos como Marble sugieren cómo estos modelos podrían transformar el trabajo creativo, la robótica y la ciencia.
Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Los robots y la inteligencia artificial multimodal aún no pueden comprender el mundo físico, una deficiencia que un destacado investigador dice que es ahora el mayor obstáculo del campo.
Fei-Fei Li, la científica informática de Stanford ampliamente considerada como una pionera de la visión por computadora moderna, dijo que la brecha entre la IA y la realidad física se ha convertido en el problema más urgente de la tecnología y argumenta que cerrarla requeriría sistemas construidos en torno al razonamiento espacial en lugar de solo al lenguaje.
La IA se acerca rápidamente a los límites del aprendizaje basado en texto, y el progreso dependerá en última instancia de los “modelos del mundo”, dijo Li en un informe publicado el lunes.
“En el centro de desbloquear la inteligencia espacial está el desarrollo de modelos del mundo—un nuevo tipo de IA generativa que debe enfrentar un conjunto de desafíos fundamentalmente diferente al de los LLMs,” escribió Li en X. “Estos modelos deben generar mundos espacialmente consistentes que obedezcan las leyes físicas, procesar entradas multimodales desde imágenes hasta acciones, y predecir cómo esos mundos evolucionan o son interactuados a lo largo del tiempo.”
¿Qué demonios son estos modelos?
El concepto de “modelos del mundo” se remonta a principios de la década de 1940, cuando el filósofo y psicólogo escocés Kenneth Craik realizó investigaciones en ciencias cognitivas.
La idea resurgió en la IA moderna después de que el artículo de 2018 de David Ha y Jürgen Schmidhuber mostrara que una red neuronal podía aprender un modelo interno compacto de un entorno y utilizarlo como simulador para la planificación y el control.
Li argumentó que los modelos del mundo son importantes porque los robots y los sistemas multimodales aún luchan con el razonamiento espacial fundamentado, lo que les impide juzgar distancias y cambios en las escenas, o predecir resultados físicos básicos.
“Los robots como colaboradores humanos, ya sea ayudando a científicos en el banco de laboratorio o asistiendo a personas mayores que viven solas, pueden ampliar parte de la fuerza laboral que necesita urgentemente más mano de obra y productividad,” escribió Li. Los entornos reales siguen reglas que las máquinas actuales no pueden captar, argumenta Li.
Desde la gravedad que da forma al movimiento hasta los materiales que influyen en la luz, resolver esto requiere sistemas capaces de almacenar memoria espacial y modelar escenas en más de dos dimensiones.
En septiembre, la empresa de Li, World Labs, lanzó la beta de Marble, un modelo del mundo temprano que producía entornos tridimensionales explorables a partir de textos o imágenes.
Los usuarios podrían caminar a través de estos mundos sin límites de tiempo o desviaciones en la escena, y los entornos se mantenían consistentes en lugar de transformarse o desmoronarse, afirma la empresa.
“El mármol es solo nuestro primer paso en la creación de un modelo de mundo verdaderamente inteligente espacialmente,” escribió Li. “A medida que el progreso se acelera, investigadores, ingenieros, usuarios y líderes empresariales comienzan a reconocer su extraordinario potencial. La próxima generación de modelos de mundo permitirá a las máquinas lograr inteligencia espacial en un nivel completamente nuevo—un logro que desbloqueará capacidades esenciales que todavía están en gran medida ausentes en los sistemas de IA de hoy.”
Li dijo que los casos de uso de modelos mundiales incluyen el apoyo a una variedad de aplicaciones porque le dan a la IA una comprensión interna de cómo se comportan los entornos.
Los creadores podrían utilizarlos para explorar escenas en tiempo real, los robots podrían depender de ellos para navegar y manejar objetos de manera más segura, y los investigadores en ciencia y atención médica podrían realizar simulaciones espaciales o mejorar la automatización de imágenes y laboratorios.
Li vinculó la investigación sobre la inteligencia espacial a los primeros estudios biológicos, señalando que los humanos aprendieron a percibir y actuar mucho antes de desarrollar el lenguaje.
“Mucho antes del lenguaje escrito, los humanos contaron historias—las pintaron en las paredes de las cuevas, las pasaron a través de generaciones, construyeron culturas enteras sobre narrativas compartidas,” escribió ella. “Las historias son la forma en que damos sentido al mundo, nos conectamos a través de la distancia y el tiempo, exploramos lo que significa ser humano, y lo más importante, encontramos significado en la vida y el amor dentro de nosotros mismos.”
Li dijo que la IA necesitaba la misma base para funcionar en el mundo físico y argumentó que su papel debería ser apoyar a las personas, no reemplazarlas. Sin embargo, el progreso dependería de modelos que entendieran cómo funcionaba el mundo en lugar de solo describirlo.
“La próxima frontera de la IA es la Inteligencia Espacial, una tecnología que convertirá la visión en razonamiento, la percepción en acción y la imaginación en creación,” dijo Li.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El progreso de la IA ahora depende de 'modelos del mundo' que comprenden la realidad física
En resumen
Centro de Arte, Moda y Entretenimiento de Decrypt.
Descubre SCENE
Los robots y la inteligencia artificial multimodal aún no pueden comprender el mundo físico, una deficiencia que un destacado investigador dice que es ahora el mayor obstáculo del campo.
Fei-Fei Li, la científica informática de Stanford ampliamente considerada como una pionera de la visión por computadora moderna, dijo que la brecha entre la IA y la realidad física se ha convertido en el problema más urgente de la tecnología y argumenta que cerrarla requeriría sistemas construidos en torno al razonamiento espacial en lugar de solo al lenguaje.
La IA se acerca rápidamente a los límites del aprendizaje basado en texto, y el progreso dependerá en última instancia de los “modelos del mundo”, dijo Li en un informe publicado el lunes.
“En el centro de desbloquear la inteligencia espacial está el desarrollo de modelos del mundo—un nuevo tipo de IA generativa que debe enfrentar un conjunto de desafíos fundamentalmente diferente al de los LLMs,” escribió Li en X. “Estos modelos deben generar mundos espacialmente consistentes que obedezcan las leyes físicas, procesar entradas multimodales desde imágenes hasta acciones, y predecir cómo esos mundos evolucionan o son interactuados a lo largo del tiempo.”
¿Qué demonios son estos modelos?
El concepto de “modelos del mundo” se remonta a principios de la década de 1940, cuando el filósofo y psicólogo escocés Kenneth Craik realizó investigaciones en ciencias cognitivas.
La idea resurgió en la IA moderna después de que el artículo de 2018 de David Ha y Jürgen Schmidhuber mostrara que una red neuronal podía aprender un modelo interno compacto de un entorno y utilizarlo como simulador para la planificación y el control.
Li argumentó que los modelos del mundo son importantes porque los robots y los sistemas multimodales aún luchan con el razonamiento espacial fundamentado, lo que les impide juzgar distancias y cambios en las escenas, o predecir resultados físicos básicos.
“Los robots como colaboradores humanos, ya sea ayudando a científicos en el banco de laboratorio o asistiendo a personas mayores que viven solas, pueden ampliar parte de la fuerza laboral que necesita urgentemente más mano de obra y productividad,” escribió Li. Los entornos reales siguen reglas que las máquinas actuales no pueden captar, argumenta Li.
Desde la gravedad que da forma al movimiento hasta los materiales que influyen en la luz, resolver esto requiere sistemas capaces de almacenar memoria espacial y modelar escenas en más de dos dimensiones.
En septiembre, la empresa de Li, World Labs, lanzó la beta de Marble, un modelo del mundo temprano que producía entornos tridimensionales explorables a partir de textos o imágenes.
Los usuarios podrían caminar a través de estos mundos sin límites de tiempo o desviaciones en la escena, y los entornos se mantenían consistentes en lugar de transformarse o desmoronarse, afirma la empresa.
“El mármol es solo nuestro primer paso en la creación de un modelo de mundo verdaderamente inteligente espacialmente,” escribió Li. “A medida que el progreso se acelera, investigadores, ingenieros, usuarios y líderes empresariales comienzan a reconocer su extraordinario potencial. La próxima generación de modelos de mundo permitirá a las máquinas lograr inteligencia espacial en un nivel completamente nuevo—un logro que desbloqueará capacidades esenciales que todavía están en gran medida ausentes en los sistemas de IA de hoy.”
Li dijo que los casos de uso de modelos mundiales incluyen el apoyo a una variedad de aplicaciones porque le dan a la IA una comprensión interna de cómo se comportan los entornos.
Los creadores podrían utilizarlos para explorar escenas en tiempo real, los robots podrían depender de ellos para navegar y manejar objetos de manera más segura, y los investigadores en ciencia y atención médica podrían realizar simulaciones espaciales o mejorar la automatización de imágenes y laboratorios.
Li vinculó la investigación sobre la inteligencia espacial a los primeros estudios biológicos, señalando que los humanos aprendieron a percibir y actuar mucho antes de desarrollar el lenguaje.
“Mucho antes del lenguaje escrito, los humanos contaron historias—las pintaron en las paredes de las cuevas, las pasaron a través de generaciones, construyeron culturas enteras sobre narrativas compartidas,” escribió ella. “Las historias son la forma en que damos sentido al mundo, nos conectamos a través de la distancia y el tiempo, exploramos lo que significa ser humano, y lo más importante, encontramos significado en la vida y el amor dentro de nosotros mismos.”
Li dijo que la IA necesitaba la misma base para funcionar en el mundo físico y argumentó que su papel debería ser apoyar a las personas, no reemplazarlas. Sin embargo, el progreso dependería de modelos que entendieran cómo funcionaba el mundo en lugar de solo describirlo.
“La próxima frontera de la IA es la Inteligencia Espacial, una tecnología que convertirá la visión en razonamiento, la percepción en acción y la imaginación en creación,” dijo Li.