Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Les progrès de l'IA dépendent désormais des « modèles du monde » qui saisissent la réalité physique.

En bref

  • Le professeur de science informatique à Stanford, Fei-Fei Li, a déclaré que les progrès de l'IA sont désormais limités par des systèmes qui ne peuvent pas comprendre l'espace physique.
  • Les modèles du monde sont conçus pour simuler des environnements et prédire comment les scènes changent au fil du temps.
  • Les premiers prototypes comme Marble laissent entrevoir comment ces modèles pourraient transformer le travail créatif, la robotique et la science.

Centre d'art, de mode et de divertissement de Decrypt.


Découvrez SCENE

Les robots et l'intelligence artificielle multimodale ne parviennent toujours pas à comprendre le monde physique, un défaut qu'un chercheur éminent affirme être désormais le plus grand obstacle du domaine.

Fei-Fei Li, la scientifique en informatique de Stanford largement considérée comme une pionnière de la vision par ordinateur moderne, a déclaré que l'écart entre l'IA et la réalité physique est devenu le problème le plus urgent de la technologie et soutient que le combler nécessiterait des systèmes construits autour du raisonnement spatial plutôt que du langage seul.

L'IA approche rapidement des limites de l'apprentissage basé sur le texte, et le progrès dépendra finalement des “modèles du monde”, a déclaré Li dans un rapport publié lundi.

“Au cœur du déblocage de l'intelligence spatiale se trouve le développement de modèles du monde—un nouveau type d'IA générative qui doit relever un ensemble de défis fondamentalement différent de celui des LLMs,” a écrit Li sur X. “Ces modèles doivent générer des mondes spatialement cohérents qui obéissent aux lois physiques, traiter des entrées multimodales allant des images aux actions, et prédire comment ces mondes évoluent ou sont interagis au fil du temps.”

Quels sont ces modèles dans le monde ?

Le concept de “modèles du monde” remonte au début des années 1940, lorsque le philosophe et psychologue écossais Kenneth Craik a mené des recherches en sciences cognitives.

L'idée a resurfacé dans l'IA moderne après que l'article de David Ha et Jürgen Schmidhuber de 2018 a montré qu'un réseau de neurones pouvait apprendre un modèle interne compact d'un environnement et l'utiliser comme simulateur pour la planification et le contrôle.

Li a soutenu que les modèles du monde sont importants car les robots et les systèmes multimodaux ont encore du mal avec le raisonnement spatial ancré, les empêchant d'évaluer les distances et les changements de scène, ou de prédire des résultats physiques de base.

« Les robots en tant que collaborateurs humains, qu'ils aident les scientifiques au banc de laboratoire ou assistent les personnes âgées vivant seules, peuvent élargir une partie de la main-d'œuvre qui a désespérément besoin de plus de travail et de productivité », a écrit Li. Les environnements réels suivent des règles que les machines actuelles ne peuvent pas saisir, soutient Li.

De la gravité façonnant le mouvement aux matériaux influençant la lumière, résoudre cela nécessite des systèmes capables de stocker une mémoire spatiale et de modéliser des scènes en plus de deux dimensions.

En septembre, la société de Li, World Labs, a lancé la version bêta de Marble, un modèle du monde précoce qui générait des environnements tridimensionnels explorables à partir de textes ou d'images.

Les utilisateurs pouvaient traverser ces mondes sans limites de temps ni dérive de scène, et les environnements demeuraient cohérents plutôt que de se transformer ou de se désintégrer, affirme la société.

“Le marbre n'est que notre première étape dans la création d'un véritable modèle de monde spatialement intelligent”, a écrit Li. “À mesure que les progrès s'accélèrent, chercheurs, ingénieurs, utilisateurs et chefs d'entreprise commencent à reconnaître son potentiel extraordinaire. La prochaine génération de modèles mondiaux permettra aux machines d'atteindre une intelligence spatiale à un niveau totalement nouveau—une réalisation qui débloquera des capacités essentielles encore largement absentes des systèmes d'IA d'aujourd'hui.”

Li a déclaré que les cas d'utilisation des modèles mondiaux incluent le soutien à une gamme d'applications car ils donnent à l'IA une compréhension interne de la manière dont les environnements se comportent.

Les créateurs pourraient les utiliser pour explorer des scènes en temps réel, les robots pourraient s'y fier pour naviguer et manipuler des objets plus en toute sécurité, et les chercheurs en sciences et en santé pourraient exécuter des simulations spatiales ou améliorer l'imagerie et l'automatisation des laboratoires.

Li a relié la recherche sur l'intelligence spatiale aux premières études biologiques, notant que les humains ont appris à percevoir et à agir bien avant de développer le langage.

« Bien avant l'écriture, les humains racontaient des histoires — les peignaient sur les murs des grottes, les transmettaient à travers les générations, construisaient des cultures entières sur des récits partagés, » écrivit-elle. « Les histoires sont notre façon de comprendre le monde, de nous connecter à travers la distance et le temps, d'explorer ce que cela signifie d'être humain, et surtout, de trouver un sens à la vie et à l'amour en nous-mêmes. »

Li a déclaré que l'IA avait besoin du même ancrage pour fonctionner dans le monde physique et a soutenu que son rôle devait être de soutenir les gens, et non de les remplacer. Cependant, les progrès dépendraient de modèles qui comprenaient comment le monde fonctionnait plutôt que de simplement le décrire.

« La prochaine frontière de l'IA est l'intelligence spatiale, une technologie qui transformera la vision en raisonnement, la perception en action et l'imagination en création », a déclaré Li.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)