Yang Likun : Penser qu'on peut réaliser l'AGI simplement avec un LLM est absurde, l'IA de demain a besoin d'un modèle mondial JEPA (Interview de dix mille mots à la conférence GTC)
Cet article rassemble une transcription textuelle d’une conversation publique entre Yann LeCun, scientifique en chef de l’IA de Meta et lauréat du prix Turing, et Bill Dally, scientifique en chef de NVIDIA. LeCun explique pourquoi il pense que les grands modèles de langage (LLM) ne peuvent jamais vraiment implémenter AGI. (Synopsis : OpenAI publie o3 et o4-mini Les modèles d’inférence les plus puissants : peuvent penser à des images, sélectionner automatiquement des outils et faire des percées en mathématiques et en performances de codage) (Supplément de contexte : OpenAI crée secrètement sa propre « propre plate-forme communautaire », pointant du doigt le X de Musk) Lorsque les grands modèles de langage (LLM) accélèrent l’adoption de l’IA dans le monde, Yann LeCun, connu comme le père des réseaux de neurones convolutifs et aujourd’hui scientifique en chef de l’IA chez Meta, a récemment déclaré de manière surprenante que son intérêt pour le LLM a diminué, et il pense même qu’il est proche du goulot d’étranglement du développement du LLM. Lors d’une conversation approfondie avec le scientifique en chef de NVIDIA, Bill Dally, le mois dernier, LeCun a détaillé ses idées uniques sur l’orientation future de l’IA, soulignant que la compréhension du monde physique, la mémoire durable, les capacités de raisonnement et de planification, et l’importance de l’écosystème open source sont la clé pour mener la prochaine vague de révolution de l’IA. Bill Dally : Yann, beaucoup de choses intéressantes se sont produites dans le domaine de l’IA au cours de la dernière année. Selon vous, quel a été le développement le plus excitant de l’année écoulée ? Yann LeCun : Il y en a trop pour les compter, mais laissez-moi vous dire une chose qui pourrait surprendre certains d’entre vous. Je ne suis plus très intéressé par les grands modèles de langage (LLM). Les LLM sont déjà à la fin, ils sont entre les mains des spécialistes des produits dans l’industrie, mais ils s’améliorent à un niveau marginal, en essayant d’obtenir plus de données, plus de puissance de calcul, de générer des données synthétiques. Je pense qu’il y a des problèmes plus intéressants dans quatre domaines : comment faire comprendre aux machines le monde physique, comment leur faire avoir une mémoire durable, dont on ne parle pas beaucoup, et les deux derniers sont comment les amener à raisonner et à planifier. Bien sûr, il y a eu des efforts pour que LLM fasse du raisonnement, mais à mon avis, c’est une façon très simplifiée de voir le raisonnement. Je pense qu’il y a peut-être une meilleure façon de procéder. Je suis donc enthousiasmé par des choses qui ne passionneront peut-être pas beaucoup de gens dans la communauté technologique avant cinq ans. Mais maintenant, ils ont l’air moins excitants parce qu’il s’agit d’articles académiques obscurs. Comprendre le modèle du monde et le monde physique Bill Dally : Mais que serait-ce si le LLM ne raisonnait pas sur le monde physique, n’avait pas une mémoire persistante et ne planifiait pas ? Quel sera le modèle sous-jacent ? Yann LeCun : Donc, beaucoup de gens travaillent sur le modèle mondial. Qu’est-ce qu’un modèle mondial ? Nous avons tous des modèles du monde dans notre tête. C’est essentiellement quelque chose qui nous permet de manipuler notre esprit. Nous avons un modèle du monde actuel. Vous savez, si je pousse cette bouteille par le haut, elle risque de basculer, mais si je la pousse par le bas, elle glisse. Si j’appuie trop fort, il risque d’éclater. Capture d’écran de l’interview de Yann LeCun Nous avons des modèles du monde physique, que nous acquérons dans les premiers mois de notre vie, ce qui nous permet de faire face au monde réel. Faire face au monde réel est beaucoup plus difficile que de faire face à la langue. Nous avons besoin d’une architecture système capable de gérer des systèmes du monde réel qui sont complètement différents de ce que nous traitons actuellement. Le LLM prédit les jetons, mais les jetons peuvent être n’importe quoi. Notre modèle de voiture autonome utilise des jetons provenant de capteurs et génère des jetons qui conduisent le véhicule. Dans un sens, il s’agit de raisonner sur le monde physique, du moins sur les endroits où il est sécuritaire de conduire et où vous ne heurtez pas un pilier. Bill Dally : Pourquoi le token n’est-il pas la bonne façon de représenter le monde physique ? Yann LeCun : Les tokens sont discrets. Lorsque nous parlons de jetons, nous entendons généralement un ensemble fini de possibilités. Dans un LLM typique, le nombre de tokens possibles est d’environ 100 000. Lorsque vous entraînez un système à prédire des jetons, vous ne pouvez jamais l’entraîner à prédire exactement les jetons suivants dans une séquence de texte. Vous pouvez générer une distribution de probabilité sur tous les jetons possibles dans votre dictionnaire, qui n’est qu’un long vecteur de 100 000 nombres entre zéro et un avec une somme de un. Nous savons comment le faire, mais nous ne savons pas quoi faire avec le film, avec ces données organiques continues et de grande dimension. Toutes les tentatives d’amener un système à comprendre le monde ou à construire un modèle mental du monde, en l’entraînant à prédire des films au niveau du pixel, ont largement échoué. Même l’entraînement d’un système qui ressemble à une sorte de réseau neuronal pour apprendre une bonne représentation d’une image échoue en reconstruisant l’image à partir d’une version corrompue ou convertie. Ils fonctionnent un peu, mais pas aussi bien que les architectures alternatives que nous appelons intégration conjointe, qui n’essaient pas de reconstruire au niveau du pixel. Ils essaient d’apprendre une représentation abstraite d’une image, d’un film ou d’un signal naturel en cours d’entraînement afin que vous puissiez faire des prédictions dans cet espace de représentation abstraite. Yann LeCun : L’exemple que j’utilise beaucoup, c’est que si je tourne une vidéo de cette pièce, que je déplace la caméra et que je m’arrête ici, puis que je demande au système de prédire ce qui se passe après ce film, il peut prédire qu’il s’agit d’une pièce avec des gens assis dedans et ainsi de suite. Il ne peut pas prédire à quoi ressemblera chacun d’entre vous. C’est complètement imprévisible dès les premières images du film. Il y a beaucoup de choses dans le monde qui sont tout simplement imprévisibles. Si vous entraînez un système à faire des prédictions au niveau du pixel, il dépensera toutes ses ressources à essayer de comprendre des détails qu’il ne peut tout simplement pas inventer. C’est un gaspillage total de ressources. Chaque fois que nous avons essayé, et je travaille sur ce sujet depuis 20 ans, l’utilisation d’un système d’apprentissage auto-supervisé en prédisant des vidéos ne fonctionne pas. Il n’est valable que s’il est fait au niveau de la présentation. Cela signifie que ces schémas ne sont pas génératifs. Bill Dally : Si vous dites essentiellement que les transformateurs n’ont pas cette capacité, mais que les gens ont des transformateurs de vision et obtiennent d’excellents résultats. Yann LeCun : Ce n’est pas ce que je voulais dire, parce qu’on peut utiliser un transformateur pour ça. Vous pouvez mettre des transformateurs dans ces architectures. C’est juste que le type d’architecture dont je parle s’appelle l’architecture prédictive à intégration conjointe. Donc, prenez un film ou une image ou quoi que ce soit, faites-le passer par un encodeur, vous obtenez une représentation, puis prenez les parties suivantes de cette version convertie de ce texte, de ce film ou de cette image, et faites-le également passer par un encodeur, et essayez maintenant de faire des prédictions dans cet espace de représentation, pas dans l’espace d’entrée. Vous pouvez utiliser la même méthode d’entraînement, qui consiste à remplir les blancs, mais vous le faites dans cet espace latent plutôt que dans la représentation d’origine. Yann LeCun : Ce qui est difficile, c’est que si vous ne faites pas attention et que vous n’utilisez pas une technologie intelligente, le système va planter. Il ignore complètement l’entrée, ne produisant qu’une quantité constante et inexistante d’informations d’entrée.
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
1 J'aime
Récompense
1
1
Partager
Commentaire
0/400
Distanger
· 04-19 06:55
la prochaine vague de développement arrive inévitablement
Yang Likun : Penser qu'on peut réaliser l'AGI simplement avec un LLM est absurde, l'IA de demain a besoin d'un modèle mondial JEPA (Interview de dix mille mots à la conférence GTC)
Cet article rassemble une transcription textuelle d’une conversation publique entre Yann LeCun, scientifique en chef de l’IA de Meta et lauréat du prix Turing, et Bill Dally, scientifique en chef de NVIDIA. LeCun explique pourquoi il pense que les grands modèles de langage (LLM) ne peuvent jamais vraiment implémenter AGI. (Synopsis : OpenAI publie o3 et o4-mini Les modèles d’inférence les plus puissants : peuvent penser à des images, sélectionner automatiquement des outils et faire des percées en mathématiques et en performances de codage) (Supplément de contexte : OpenAI crée secrètement sa propre « propre plate-forme communautaire », pointant du doigt le X de Musk) Lorsque les grands modèles de langage (LLM) accélèrent l’adoption de l’IA dans le monde, Yann LeCun, connu comme le père des réseaux de neurones convolutifs et aujourd’hui scientifique en chef de l’IA chez Meta, a récemment déclaré de manière surprenante que son intérêt pour le LLM a diminué, et il pense même qu’il est proche du goulot d’étranglement du développement du LLM. Lors d’une conversation approfondie avec le scientifique en chef de NVIDIA, Bill Dally, le mois dernier, LeCun a détaillé ses idées uniques sur l’orientation future de l’IA, soulignant que la compréhension du monde physique, la mémoire durable, les capacités de raisonnement et de planification, et l’importance de l’écosystème open source sont la clé pour mener la prochaine vague de révolution de l’IA. Bill Dally : Yann, beaucoup de choses intéressantes se sont produites dans le domaine de l’IA au cours de la dernière année. Selon vous, quel a été le développement le plus excitant de l’année écoulée ? Yann LeCun : Il y en a trop pour les compter, mais laissez-moi vous dire une chose qui pourrait surprendre certains d’entre vous. Je ne suis plus très intéressé par les grands modèles de langage (LLM). Les LLM sont déjà à la fin, ils sont entre les mains des spécialistes des produits dans l’industrie, mais ils s’améliorent à un niveau marginal, en essayant d’obtenir plus de données, plus de puissance de calcul, de générer des données synthétiques. Je pense qu’il y a des problèmes plus intéressants dans quatre domaines : comment faire comprendre aux machines le monde physique, comment leur faire avoir une mémoire durable, dont on ne parle pas beaucoup, et les deux derniers sont comment les amener à raisonner et à planifier. Bien sûr, il y a eu des efforts pour que LLM fasse du raisonnement, mais à mon avis, c’est une façon très simplifiée de voir le raisonnement. Je pense qu’il y a peut-être une meilleure façon de procéder. Je suis donc enthousiasmé par des choses qui ne passionneront peut-être pas beaucoup de gens dans la communauté technologique avant cinq ans. Mais maintenant, ils ont l’air moins excitants parce qu’il s’agit d’articles académiques obscurs. Comprendre le modèle du monde et le monde physique Bill Dally : Mais que serait-ce si le LLM ne raisonnait pas sur le monde physique, n’avait pas une mémoire persistante et ne planifiait pas ? Quel sera le modèle sous-jacent ? Yann LeCun : Donc, beaucoup de gens travaillent sur le modèle mondial. Qu’est-ce qu’un modèle mondial ? Nous avons tous des modèles du monde dans notre tête. C’est essentiellement quelque chose qui nous permet de manipuler notre esprit. Nous avons un modèle du monde actuel. Vous savez, si je pousse cette bouteille par le haut, elle risque de basculer, mais si je la pousse par le bas, elle glisse. Si j’appuie trop fort, il risque d’éclater. Capture d’écran de l’interview de Yann LeCun Nous avons des modèles du monde physique, que nous acquérons dans les premiers mois de notre vie, ce qui nous permet de faire face au monde réel. Faire face au monde réel est beaucoup plus difficile que de faire face à la langue. Nous avons besoin d’une architecture système capable de gérer des systèmes du monde réel qui sont complètement différents de ce que nous traitons actuellement. Le LLM prédit les jetons, mais les jetons peuvent être n’importe quoi. Notre modèle de voiture autonome utilise des jetons provenant de capteurs et génère des jetons qui conduisent le véhicule. Dans un sens, il s’agit de raisonner sur le monde physique, du moins sur les endroits où il est sécuritaire de conduire et où vous ne heurtez pas un pilier. Bill Dally : Pourquoi le token n’est-il pas la bonne façon de représenter le monde physique ? Yann LeCun : Les tokens sont discrets. Lorsque nous parlons de jetons, nous entendons généralement un ensemble fini de possibilités. Dans un LLM typique, le nombre de tokens possibles est d’environ 100 000. Lorsque vous entraînez un système à prédire des jetons, vous ne pouvez jamais l’entraîner à prédire exactement les jetons suivants dans une séquence de texte. Vous pouvez générer une distribution de probabilité sur tous les jetons possibles dans votre dictionnaire, qui n’est qu’un long vecteur de 100 000 nombres entre zéro et un avec une somme de un. Nous savons comment le faire, mais nous ne savons pas quoi faire avec le film, avec ces données organiques continues et de grande dimension. Toutes les tentatives d’amener un système à comprendre le monde ou à construire un modèle mental du monde, en l’entraînant à prédire des films au niveau du pixel, ont largement échoué. Même l’entraînement d’un système qui ressemble à une sorte de réseau neuronal pour apprendre une bonne représentation d’une image échoue en reconstruisant l’image à partir d’une version corrompue ou convertie. Ils fonctionnent un peu, mais pas aussi bien que les architectures alternatives que nous appelons intégration conjointe, qui n’essaient pas de reconstruire au niveau du pixel. Ils essaient d’apprendre une représentation abstraite d’une image, d’un film ou d’un signal naturel en cours d’entraînement afin que vous puissiez faire des prédictions dans cet espace de représentation abstraite. Yann LeCun : L’exemple que j’utilise beaucoup, c’est que si je tourne une vidéo de cette pièce, que je déplace la caméra et que je m’arrête ici, puis que je demande au système de prédire ce qui se passe après ce film, il peut prédire qu’il s’agit d’une pièce avec des gens assis dedans et ainsi de suite. Il ne peut pas prédire à quoi ressemblera chacun d’entre vous. C’est complètement imprévisible dès les premières images du film. Il y a beaucoup de choses dans le monde qui sont tout simplement imprévisibles. Si vous entraînez un système à faire des prédictions au niveau du pixel, il dépensera toutes ses ressources à essayer de comprendre des détails qu’il ne peut tout simplement pas inventer. C’est un gaspillage total de ressources. Chaque fois que nous avons essayé, et je travaille sur ce sujet depuis 20 ans, l’utilisation d’un système d’apprentissage auto-supervisé en prédisant des vidéos ne fonctionne pas. Il n’est valable que s’il est fait au niveau de la présentation. Cela signifie que ces schémas ne sont pas génératifs. Bill Dally : Si vous dites essentiellement que les transformateurs n’ont pas cette capacité, mais que les gens ont des transformateurs de vision et obtiennent d’excellents résultats. Yann LeCun : Ce n’est pas ce que je voulais dire, parce qu’on peut utiliser un transformateur pour ça. Vous pouvez mettre des transformateurs dans ces architectures. C’est juste que le type d’architecture dont je parle s’appelle l’architecture prédictive à intégration conjointe. Donc, prenez un film ou une image ou quoi que ce soit, faites-le passer par un encodeur, vous obtenez une représentation, puis prenez les parties suivantes de cette version convertie de ce texte, de ce film ou de cette image, et faites-le également passer par un encodeur, et essayez maintenant de faire des prédictions dans cet espace de représentation, pas dans l’espace d’entrée. Vous pouvez utiliser la même méthode d’entraînement, qui consiste à remplir les blancs, mais vous le faites dans cet espace latent plutôt que dans la représentation d’origine. Yann LeCun : Ce qui est difficile, c’est que si vous ne faites pas attention et que vous n’utilisez pas une technologie intelligente, le système va planter. Il ignore complètement l’entrée, ne produisant qu’une quantité constante et inexistante d’informations d’entrée.