En la final de la “Cumbre AI+SF” celebrada por Axios en San Francisco, Demis Hassabis, CEO de Google DeepMind, expuso las líneas de investigación de DeepMind, avances tecnológicos como modelos multimodales y mundiales, y habló sobre el desarrollo de agentes de IA y los riesgos relacionados. También evaluó la competencia en IA entre Estados Unidos y China, y dio una estimación poco común del calendario de la AGI, creyendo que quedan entre 5 y 10 años antes de que “los sistemas de IA con capacidades cognitivas humanas”.
Con la bendición del aura Nobel, el pensamiento científico domina DeepMind
Al comienzo del evento, el presentador Mike Allen presentó a Hassabis como un prodigio del ajedrez de 5 años y un ganador del Premio Nobel de 48 años. Hassabis admite que ganar el premio sigue pareciendo irreal, pero el impacto real es evidente.
Porque cuando habla con funcionarios gubernamentales o responsables de la toma de decisiones transfronterizos que no están familiarizados con la IA, el “Premio Nobel” es como una llave que puede abrir rápidamente cualquier puerta, haciéndoles más dispuestos a escucharle hablar sobre temas como la seguridad y el uso responsable de la IA, y planea hacer un uso más activo de este título en el futuro.
En cuanto a su trabajo diario y estilo de gestión, Hassabis enfatiza que “siempre es lo primero como científico y el CEO viene en segundo lugar.” A sus ojos, el método científico es uno de los inventos más importantes de la humanidad, y aplica directamente el proceso de “formular hipótesis, diseñar experimentos y actualizar opiniones basadas en resultados” directamente al desarrollo de productos y la gestión organizativa.
Las ventajas de DeepMind provienen de tres niveles simultáneos, a saber: “investigación de clase mundial, capacidades de ingeniería de primer nivel y infraestructura informática de primer nivel”. Cree que solo cuando estos tres niveles se llevan a cabo simultáneamente DeepMind podrá estar a la vanguardia del desarrollo de la IA.
Diseño para los próximos 12 meses: evolución multimodal, modelo mundial y agentes
Hablando sobre el progreso específico de la IA en los próximos 12 meses, Hassabis señaló que Gemini fue diseñado desde el principio como un modelo multimodal, capaz de procesar texto, imágenes, vídeo y audio al mismo tiempo. Por ejemplo, su último modelo de imagen, “Nano Banana Pro”, puede producir infografías muy precisas, lo que indica que las capacidades de comprensión visual del modelo están mejorando rápidamente.
El segundo enfoque es el modelo mundial (World Models). Genie 3, desarrollado por DeepMind, puede generar vídeos interactivos que permiten a los usuarios no solo ver el vídeo, sino también entrar en la pantalla como si entraran en un juego, manteniendo la consistencia y coherencia en el mundo durante aproximadamente un minuto. Este tipo de modelo se considera un paso clave en la comprensión de la IA sobre apariencias y reglas del mundo real.
La tercera son los agentes de IA. Hassabis admitió que los agentes de IA actuales no pueden sentirse relevados de asignarle un paquete completo de tareas directamente, asegurando que todo se haga bien desde cero. Pero espera que en un año la confianza de los agentes de IA aumente definitivamente. El objetivo de Google es convertir a Gemini en un “asistente universal” que no solo exista en teléfonos móviles y ordenadores, sino que pueda estar al lado del usuario en cualquier momento a través de dispositivos portátiles como gafas, convirtiéndose en un asistente habitual en la vida diaria y el trabajo.
( prueba: Gemini 3 Nano Banana Pro genera automáticamente caricaturas humorísticas tras pensar, convirtiendo a Trump de nuevo en un pequeño )
El futuro promete la exploración cósmica, pero los riesgos de seguridad son tan críticos como la comprensión del vídeo
Hablando de los mejores escenarios que puede ofrecer la IA, Hassabis plantea la hipótesis de que la IA puede ayudar a la humanidad a superar varios cuellos de botella clave, como la fusión nuclear o nuevas baterías, nuevos avances en ciencia de materiales y semiconductores, y soluciones a enfermedades importantes, y que la sociedad humana tendrá la oportunidad de avanzar en la exploración espacial con recursos más abundantes.
Pero también señaló el peor escenario posible, que se divide en varios niveles:
Los actores maliciosos utilizan IA para diseñar o mejorar patógenos.
La IA acelera los ciberataques de fuerzas extranjeras contra infraestructuras críticas como la energía y los recursos hídricos, y es probable que estas cosas estén ocurriendo, pero la IA utilizada aún no está avanzada.
Los agentes de IA altamente autónomos se desvían de sus instrucciones originales y de las expectativas humanas, por lo que deben invertir considerables recursos y atención para evitarlos.
En cuanto a capacidad, cree que la parte infravalorada del mundo exterior es el profundo entendimiento del vídeo que tiene la IA. Hassabis compartió que una vez le pidió a Gemini que analizara la escena, y el modelo no solo entiende la imagen, sino que también ofrece una interpretación muy profunda de símbolos y emociones, en lugar de limitarse a describir acciones superficiales.
También mencionó que Gemini Live permite recibir asistencia instantánea en reparaciones apuntando la cámara del móvil hacia equipos mecánicos, pero cree que el vehículo realmente ideal serán las gafas, porque tus manos deben estar vacías durante las operaciones in situ para poder trabajar e interactuar con la IA al mismo tiempo.
Solo quedan unos meses en la brecha entre Estados Unidos y China, y la AGI aún está a uno o dos kilómetros de distancia
En cuanto a la competencia internacional, Hassabis considera que Estados Unidos y Occidente siguen liderando a China en cuanto a capacidades de modelos e innovación, pero el último lote de modelos de China, como DeepSeek, ya es muy sólido y la mayoría están alcanzando rápidamente a las tecnologías existentes. Consideró que en el pasado, Estados Unidos y Occidente pudieron haber liderado en años, pero ahora solo quedan unos meses por delante de China.
Hassabis define la AGI de forma bastante clara, a saber:
“Debes tener todas las habilidades cognitivas principales de los seres humanos, incluyendo planificación a largo plazo, memoria a largo plazo, aprendizaje continuo, razonamiento real y creatividad, etc.”
Señaló que, aunque los LLMs en esta etapa ya tienen la capacidad de acercarse a los mejores médicos en algunos campos, seguirán cometiendo errores en muchos escenarios, y que sigue existiendo una brecha entre la AGI real y la estimación que tardará entre 5 y 10 años. Hassabis añadió que, incluso si la escala de los LLMs existentes se lleva al límite, aún no es suficiente para superar el umbral de la AGI, y el campo de la IA podría necesitar uno o dos grandes avances tecnológicos que mejoren enormemente las capacidades, como los transformadores, antes de tener una oportunidad real de lograr la AGI.
(IBM CEO: La industria de la IA es una apuesta “difícil de recuperar”, ya que los LLMs solo tienen un 1% de posibilidades de crear con éxito )
La publicación Google DeepMind CEO: La AGI está a 5 o 10 años de distancia, las oportunidades y riesgos de desarrollo de IA van de la mano apareció primero en Chain News ABMedia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
CEO de Google DeepMind: La AGI aún está a 5 o 10 años de distancia, y las oportunidades y riesgos de desarrollo de IA van de la mano
En la final de la “Cumbre AI+SF” celebrada por Axios en San Francisco, Demis Hassabis, CEO de Google DeepMind, expuso las líneas de investigación de DeepMind, avances tecnológicos como modelos multimodales y mundiales, y habló sobre el desarrollo de agentes de IA y los riesgos relacionados. También evaluó la competencia en IA entre Estados Unidos y China, y dio una estimación poco común del calendario de la AGI, creyendo que quedan entre 5 y 10 años antes de que “los sistemas de IA con capacidades cognitivas humanas”.
Con la bendición del aura Nobel, el pensamiento científico domina DeepMind
Al comienzo del evento, el presentador Mike Allen presentó a Hassabis como un prodigio del ajedrez de 5 años y un ganador del Premio Nobel de 48 años. Hassabis admite que ganar el premio sigue pareciendo irreal, pero el impacto real es evidente.
Porque cuando habla con funcionarios gubernamentales o responsables de la toma de decisiones transfronterizos que no están familiarizados con la IA, el “Premio Nobel” es como una llave que puede abrir rápidamente cualquier puerta, haciéndoles más dispuestos a escucharle hablar sobre temas como la seguridad y el uso responsable de la IA, y planea hacer un uso más activo de este título en el futuro.
En cuanto a su trabajo diario y estilo de gestión, Hassabis enfatiza que “siempre es lo primero como científico y el CEO viene en segundo lugar.” A sus ojos, el método científico es uno de los inventos más importantes de la humanidad, y aplica directamente el proceso de “formular hipótesis, diseñar experimentos y actualizar opiniones basadas en resultados” directamente al desarrollo de productos y la gestión organizativa.
Las ventajas de DeepMind provienen de tres niveles simultáneos, a saber: “investigación de clase mundial, capacidades de ingeniería de primer nivel y infraestructura informática de primer nivel”. Cree que solo cuando estos tres niveles se llevan a cabo simultáneamente DeepMind podrá estar a la vanguardia del desarrollo de la IA.
Diseño para los próximos 12 meses: evolución multimodal, modelo mundial y agentes
Hablando sobre el progreso específico de la IA en los próximos 12 meses, Hassabis señaló que Gemini fue diseñado desde el principio como un modelo multimodal, capaz de procesar texto, imágenes, vídeo y audio al mismo tiempo. Por ejemplo, su último modelo de imagen, “Nano Banana Pro”, puede producir infografías muy precisas, lo que indica que las capacidades de comprensión visual del modelo están mejorando rápidamente.
El segundo enfoque es el modelo mundial (World Models). Genie 3, desarrollado por DeepMind, puede generar vídeos interactivos que permiten a los usuarios no solo ver el vídeo, sino también entrar en la pantalla como si entraran en un juego, manteniendo la consistencia y coherencia en el mundo durante aproximadamente un minuto. Este tipo de modelo se considera un paso clave en la comprensión de la IA sobre apariencias y reglas del mundo real.
La tercera son los agentes de IA. Hassabis admitió que los agentes de IA actuales no pueden sentirse relevados de asignarle un paquete completo de tareas directamente, asegurando que todo se haga bien desde cero. Pero espera que en un año la confianza de los agentes de IA aumente definitivamente. El objetivo de Google es convertir a Gemini en un “asistente universal” que no solo exista en teléfonos móviles y ordenadores, sino que pueda estar al lado del usuario en cualquier momento a través de dispositivos portátiles como gafas, convirtiéndose en un asistente habitual en la vida diaria y el trabajo.
( prueba: Gemini 3 Nano Banana Pro genera automáticamente caricaturas humorísticas tras pensar, convirtiendo a Trump de nuevo en un pequeño )
El futuro promete la exploración cósmica, pero los riesgos de seguridad son tan críticos como la comprensión del vídeo
Hablando de los mejores escenarios que puede ofrecer la IA, Hassabis plantea la hipótesis de que la IA puede ayudar a la humanidad a superar varios cuellos de botella clave, como la fusión nuclear o nuevas baterías, nuevos avances en ciencia de materiales y semiconductores, y soluciones a enfermedades importantes, y que la sociedad humana tendrá la oportunidad de avanzar en la exploración espacial con recursos más abundantes.
Pero también señaló el peor escenario posible, que se divide en varios niveles:
Los actores maliciosos utilizan IA para diseñar o mejorar patógenos.
La IA acelera los ciberataques de fuerzas extranjeras contra infraestructuras críticas como la energía y los recursos hídricos, y es probable que estas cosas estén ocurriendo, pero la IA utilizada aún no está avanzada.
Los agentes de IA altamente autónomos se desvían de sus instrucciones originales y de las expectativas humanas, por lo que deben invertir considerables recursos y atención para evitarlos.
En cuanto a capacidad, cree que la parte infravalorada del mundo exterior es el profundo entendimiento del vídeo que tiene la IA. Hassabis compartió que una vez le pidió a Gemini que analizara la escena, y el modelo no solo entiende la imagen, sino que también ofrece una interpretación muy profunda de símbolos y emociones, en lugar de limitarse a describir acciones superficiales.
También mencionó que Gemini Live permite recibir asistencia instantánea en reparaciones apuntando la cámara del móvil hacia equipos mecánicos, pero cree que el vehículo realmente ideal serán las gafas, porque tus manos deben estar vacías durante las operaciones in situ para poder trabajar e interactuar con la IA al mismo tiempo.
Solo quedan unos meses en la brecha entre Estados Unidos y China, y la AGI aún está a uno o dos kilómetros de distancia
En cuanto a la competencia internacional, Hassabis considera que Estados Unidos y Occidente siguen liderando a China en cuanto a capacidades de modelos e innovación, pero el último lote de modelos de China, como DeepSeek, ya es muy sólido y la mayoría están alcanzando rápidamente a las tecnologías existentes. Consideró que en el pasado, Estados Unidos y Occidente pudieron haber liderado en años, pero ahora solo quedan unos meses por delante de China.
Hassabis define la AGI de forma bastante clara, a saber:
“Debes tener todas las habilidades cognitivas principales de los seres humanos, incluyendo planificación a largo plazo, memoria a largo plazo, aprendizaje continuo, razonamiento real y creatividad, etc.”
Señaló que, aunque los LLMs en esta etapa ya tienen la capacidad de acercarse a los mejores médicos en algunos campos, seguirán cometiendo errores en muchos escenarios, y que sigue existiendo una brecha entre la AGI real y la estimación que tardará entre 5 y 10 años. Hassabis añadió que, incluso si la escala de los LLMs existentes se lleva al límite, aún no es suficiente para superar el umbral de la AGI, y el campo de la IA podría necesitar uno o dos grandes avances tecnológicos que mejoren enormemente las capacidades, como los transformadores, antes de tener una oportunidad real de lograr la AGI.
(IBM CEO: La industria de la IA es una apuesta “difícil de recuperar”, ya que los LLMs solo tienen un 1% de posibilidades de crear con éxito )
La publicación Google DeepMind CEO: La AGI está a 5 o 10 años de distancia, las oportunidades y riesgos de desarrollo de IA van de la mano apareció primero en Chain News ABMedia.