PDG de Google DeepMind : L’AGI est encore à 5 à 10 ans, et les opportunités et risques de développement de l’IA vont de pair

2025-12-10 07:54:50

Lors de la finale du « AI+SF Summit » organisé par Axios à San Francisco, Demis Hassabis, PDG de Google DeepMind, a exposé les orientations de recherche de DeepMind, les avancées technologiques telles que les modèles multimodaux et mondiaux, et a évoqué le développement des agents d’IA et les risques associés. Il a également évalué la concurrence entre les États-Unis et la Chine en matière d’IA, et a donné une estimation rare du calendrier de l’AGI, estimant qu’il reste environ 5 à 10 ans avant « des systèmes d’IA dotés de capacités cognitives humaines ».

Avec la bénédiction de l’aura Nobel, la pensée scientifique domine DeepMind

Au début de l’événement, l’animateur Mike Allen a présenté Hassabis comme un prodige des échecs de 5 ans et un lauréat du prix Nobel âgé de 48 ans. Hassabis admet que remporter ce prix semble encore très irréel, mais l’impact réel est évident.

Parce que lorsqu’il s’adresse à des responsables gouvernementaux ou à des décideurs transfrontaliers qui ne connaissent pas l’IA, le « prix Nobel » est comme une clé qui peut ouvrir rapidement n’importe quelle porte, les rendant plus enclins à l’écouter parler de sujets comme la sécurité de l’IA et son utilisation responsable, et il prévoit d’utiliser ce titre plus activement à l’avenir.

En ce qui concerne son travail quotidien et son style de gestion, Hassabis souligne qu’il « passe toujours en premier en tant que scientifique et que le PDG vient en second ». À ses yeux, la méthode scientifique est l’une des inventions les plus importantes de l’humanité, et il applique directement le processus de « formulation d’hypothèses, conception d’expériences et mise à jour des opinions basées sur les résultats » directement au développement de produits et à la gestion organisationnelle.

Les avantages de DeepMind proviennent simultanément de trois niveaux, à savoir « recherche de classe mondiale, capacités d’ingénierie de classe mondiale et infrastructures informatiques de classe mondiale ». Il estime que ce n’est que lorsque ces trois niveaux sont réalisés simultanément que DeepMind peut être qualifié pour se tenir à la pointe du développement de l’IA.

Disposition pour les 12 prochains mois : évolution multimodale, modèle du monde et agents

En parlant des progrès spécifiques de l’IA dans les 12 prochains mois, Hassabis a souligné que Gemini a été conçu dès le départ comme un modèle multimodal, capable de traiter texte, images, vidéo et audio simultanément. Par exemple, son dernier modèle d’image, « Nano Banana Pro », peut produire des infographies très précises, indiquant que les capacités de compréhension visuelle du modèle s’améliorent rapidement.

Le second axe porte sur le modèle mondial (World Models). Genie 3, développé par DeepMind, peut générer des vidéos interactives qui permettent aux utilisateurs non seulement de regarder la vidéo mais aussi de marcher vers l’écran comme s’ils entraient dans un jeu, maintenant ainsi cohérence et cohérence dans le monde pendant environ une minute. Ce type de modèle est considéré comme une étape clé dans la compréhension par l’IA des apparences et règles réelles.

La troisième est celle des agents IA. Hassabis a admis que les agents IA actuels ne peuvent pas se permettre de lui confier un ensemble complet de tâches directement, garantissant ainsi que tout est bien fait à partir de zéro. Mais il s’attend à ce qu’en un an, la confiance des agents IA augmente certainement. L’objectif de Google est de faire de Gemini un « assistant universel » qui existe non seulement sur les téléphones portables et les ordinateurs, mais qui peut être aux côtés de l’utilisateur à tout moment grâce à des appareils portables comme les lunettes, devenant ainsi un assistant régulier pour la vie quotidienne et le travail.

( test : Gemini 3 Nano Banana Pro génère automatiquement des dessins humoristiques après réflexion, transformant Trump en un petit )

L’avenir est prometteur pour l’exploration cosmique, mais les risques de sécurité sont aussi cruciaux que la compréhension vidéo

En parlant des meilleurs scénarios que l’IA peut offrir, Hassabis émet l’hypothèse que l’IA peut aider l’humanité à franchir plusieurs goulets d’étranglement clés, tels que la fusion nucléaire ou les nouvelles batteries, de nouvelles percées en science des matériaux et en semi-conducteurs, et des solutions aux maladies majeures, et que la société humaine aura l’opportunité d’aller de l’avant dans l’exploration spatiale avec des ressources plus abondantes.

Mais il a aussi souligné le pire scénario, qui est divisé en plusieurs niveaux :

Les acteurs malveillants utilisent l’IA pour concevoir ou améliorer les agents pathogènes.

L’IA accélère les cyberattaques de forces étrangères sur des infrastructures critiques telles que l’énergie et les ressources en eau, et de telles choses sont probables, mais l’IA utilisée n’est pas encore avancée.

Les agents IA hautement autonomes s’écartent de leurs instructions initiales et des attentes humaines, ils doivent donc investir beaucoup de ressources et d’attention pour les empêcher.

En termes de capacité, il estime que la partie sous-estimée du monde extérieur réside dans la profonde compréhension de la vidéo par l’IA. Hassabis a partagé qu’il avait un jour demandé à Gemini d’analyser la scène, et que le modèle non seulement comprend l’image, mais offre aussi une interprétation très profonde des symboles et des émotions, plutôt que de simplement décrire des actions superficielles.

Il a également mentionné que Gemini Live vous permet d’obtenir une assistance instantanée en pointant la caméra de votre téléphone vers des équipements mécaniques, mais il pense que le véhicule vraiment idéal sera les lunettes, car vos mains doivent être vides lors des opérations sur site pour pouvoir travailler et interagir avec l’IA en même temps.

Il ne reste que quelques mois dans l’écart entre les États-Unis et la Chine, et l’AGI est encore à un ou deux kilomètres

En matière de concurrence internationale, Hassabis estime que les États-Unis et l’Occident dominent toujours la Chine dans son ensemble en termes de capacités de modèles et d’innovation, mais le dernier lot de modèles chinois, comme DeepSeek, est déjà très solide, et la plupart rattrapent rapidement leur retard grâce aux technologies existantes. Il a estimé qu’autrefois, les États-Unis et l’Occident avaient peut-être mené pendant des années, mais qu’il ne reste plus que quelques mois devant la Chine.

Hassabis définit l’AGI de manière assez claire, à savoir :

« Vous devez posséder toutes les capacités cognitives majeures des êtres humains, y compris la planification à long terme, la mémoire à long terme, l’apprentissage continu, le raisonnement réel et la créativité, etc. »

Il a souligné que, bien que les LLM aient déjà la capacité de contacter les meilleurs médecins dans certains domaines, ils commettront encore des erreurs dans de nombreux scénarios, et qu’il existe encore un écart entre une véritable AGI et une estimation de 5 à 10 ans. Hassabis a ajouté que même si l’échelle des LLM existants est poussée à la limite, ce n’est toujours pas suffisant pour dépasser le seuil de l’AGI, et que le domaine de l’IA pourrait avoir besoin d’une ou deux avancées technologiques majeures pouvant grandement améliorer les capacités, comme les transformateurs, avant d’avoir une chance d’atteindre véritablement l’AGI.

(IBM PDG : L’industrie de l’IA est un pari « difficile à récupérer », les LLM n’ayant que 1 % de chances de réussir à créer des ) AGI

L’article Google DeepMind CEO : L’AGI est dans 5 à 10 ans, les opportunités et risques de développement de l’IA vont de pair, est apparu en premier sur Chain News ABMedia.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.