Zhipu, l'ombre de la lune, Xiaomi en table ronde : les grands modèles commencent vraiment à « travailler », la puissance de calcul reste le principal goulot d'étranglement

Auteur : Chen Junda

Zhi Dongxi, 27 mars, rapporte qu’aujourd’hui, lors du Forum Zhongguancun, Zhang Peng, PDG de Zhipu, Yang Zhulin (en tant qu’animateur), Luo Fuli, responsable des grands modèles chez Xiaomi MiMo, Xia Lixue, PDG de Wuwenchipxiong, et Huang Chao, professeur assistant à l’Université de Hong Kong, se sont exceptionnellement retrouvés sur la même scène pour un échange approfondi autour de l’évolution future des grands modèles open source et des agents.

Cet échange a débuté par le OpenClaw, actuellement le plus en vogue. Plusieurs invités estiment unanimement que les agents permettent aux grands modèles de commencer réellement à « passer à l’action ». OpenClaw élargit les limites des capacités des grands modèles, mais exige aussi davantage du modèle. Zhipu étudie des capacités comme la planification à long terme et l’autoréglage, tandis que l’équipe de Luo Fuli se concentre davantage sur la baisse des coûts grâce à l’innovation architecturale, sur l’accélération, et même sur la capacité du modèle à s’auto-optimiser.

L’infrastructure doit aussi suivre le rythme des agents. Xia Lixue pense que les systèmes de puissance de calcul et l’architecture logicielle actuels sont encore conçus pour l’usage humain, pas pour les agents. En réalité, ce sont les capacités de l’opération humaine qui limitent l’espace de déploiement des Agents. Ainsi, nous devons créer une Agentic Infra.

Aux yeux de plusieurs invités, l’open source est l’un des moteurs clés qui font avancer le développement des grands modèles et des agents. Huang Chao, professeur assistant à l’Université de Hong Kong, estime que l’essor de l’écosystème open source est la clé pour que les agents passent de « jouer un peu » à « devenir de vrais travailleurs ». Ce n’est qu’en construisant ensemble au sein de la communauté que les logiciels, les données et les technologies pourront se transformer intégralement vers une forme native des agents, aboutissant finalement à un écosystème mondial d’IA durable.

En outre, plusieurs invités ont également discuté de sujets comme la hausse des prix des grands modèles, l’explosion de la consommation de tokens et les mots-clés pour l’avenir de l’IA au cours des 12 prochains mois. Voici les idées centrales de ce forum de table ronde :

1、Zhang Peng : Quand le modèle devient plus grand, le coût d’inférence augmente aussi en conséquence. La stratégie de hausse des prix de Zhipu récemment est en fait un retour à une valeur commerciale normale. La concurrence à bas prix sur le long terme est défavorable au développement du secteur.

2、Zhang Peng : L’explosion de nouvelles technologies comme les agents fait croître la quantité de tokens utilisée par 10 fois, mais la demande réelle pourrait croître de 100 fois. Il reste encore une grande partie des besoins non satisfaits, donc la puissance de calcul demeure le problème clé pour les 12 prochains mois.

3、Luo Fuli : Du point de vue d’un fournisseur de grands modèles de base, OpenClaw garantit le plancher des grands modèles de base et relève le plafond. Les modèles open source nationaux + OpenClaw, en termes de taux d’achèvement des tâches, sont déjà très proches de Claude.

4、Luo Fuli : DeepSeek apporte du courage et de la confiance aux entreprises nationales de grands modèles. Certaines innovations de structures de modèles, qui semblent relever des « compromis pour l’efficacité », ont en réalité déclenché une véritable transformation. Cela permet au secteur de tirer son niveau d’intelligence maximal dans un contexte où la puissance de calcul est donnée.

5、Luo Fuli : L’étape la plus importante du parcours vers l’AGI pour l’année à venir est l’« auto-échauffement ». L’auto-échauffement permet aux grands modèles d’explorer comme le ferait un top scientifique ; c’est l’unique endroit où « créer du nouveau ». Xiaomi a déjà, grâce à Claude Code + un modèle de tout premier niveau, amélioré l’efficacité de recherche de 10 fois.

6、Xia Lixue : Quand l’ère de l’AGI arrivera, l’infrastructure elle-même devrait être un agent. Elle doit gérer automatiquement l’ensemble de l’infrastructure, itérer l’infrastructure en fonction des besoins des clients en IA, et réaliser une auto-optimisation, une auto-itération.

7、Xia Lixue : OpenClaw a déclenché l’explosion de l’usage des tokens. Aujourd’hui, la vitesse de consommation de tokens, c’est comme à l’époque de l’ère 3G, quand la consommation de données des téléphones venait juste de démarrer : l’équivalent d’un budget mensuel de seulement 100M.

8、Huang Chao : À l’avenir, de nombreux logiciels ne seront pas conçus pour les humains. Les logiciels, les données et les technologies prendront tous une forme d’Agent-Native, c’est-à-dire programmée sous forme d’agents. Les humains n’auront peut-être besoin d’utiliser que ces « GUI qui les rendent heureux ».

Voici l’intégralité du compte rendu de ce forum de table ronde :

  1. OpenClaw, c’est un « échafaudage » ; la consommation de tokens des grands modèles est encore à l’ère 3G

Yang Zhulin : C’est un grand honneur d’inviter aujourd’hui autant de personnalités de haut niveau. Les intervenants viennent de la couche modèle, de la couche puissance de calcul jusqu’à la couche agent. Les mots-clés les plus importants d’aujourd’hui sont l’open source, puis il y a aussi les agents.

Je vais d’abord aborder la question sur le OpenClaw le plus populaire actuellement. Dans votre vie quotidienne, lorsque vous utilisez OpenClaw ou des produits similaires, qu’est-ce qui vous paraît le plus plein d’imagination ou le plus marquant ? D’un point de vue technique, comment voyez-vous l’évolution d’aujourd’hui d’OpenClaw et des Agents associés ?

Zhang Peng : Très tôt, j’ai commencé à jouer moi-même avec OpenClaw. À l’époque, il s’appelait encore Clawbot. J’ai bricolé et remué par moi-même. Après tout, je suis aussi de formation programmeur ; jouer avec ces choses m’a donné une expérience personnelle.

Je pense que le plus grand saut qu’OpenClaw apporte, ou en tout cas ce qui est le plus « nouveau », c’est qu’il n’est plus la spécialité des programmeurs ou des geeks. Les gens ordinaires peuvent aussi utiliser assez facilement la puissance des modèles de pointe, en particulier pour la programmation et les capacités des agents.

Donc jusqu’à maintenant, lors des échanges avec tout le monde, je suis plus enclin à appeler OpenClaw un « échafaudage ». Ce qu’il fournit, c’est une possibilité : sur la base du modèle, il construit un échafaudage à la fois très solide, très pratique, mais aussi très flexible. Chacun peut, selon ses propres intentions, utiliser les nouvelles fonctionnalités offertes par de nombreux modèles de base.

À l’origine, vos idées pouvaient être limitées par le fait que vous ne saviez pas coder, ou que vous n’aviez pas maîtrisé d’autres compétences pertinentes. Aujourd’hui, avec OpenClaw, vous pouvez enfin le réaliser grâce à un échange très simple.

OpenClaw m’a donné un choc énorme, ou plutôt m’a fait redécouvrir cette chose.

Xia Lixue : En fait, quand j’ai commencé à utiliser OpenClaw, je n’étais pas vraiment à l’aise. Parce que je suis habitué au mode d’échange où l’on discute avec un grand modèle ; après l’avoir utilisé, j’ai eu l’impression qu’OpenClaw réagit trop lentement.

Mais ensuite, j’ai réalisé un point : par rapport aux robots conversationnels précédents, il y a une énorme différence. Fondamentalement, c’est une « personne » capable de m’aider à accomplir de grandes tâches. J’ai commencé à lui confier des tâches plus complexes, et j’ai découvert qu’en fait, il peut très bien les faire.

Cette chose m’a profondément marqué. Au début, le modèle discute en fonction des tokens ; aujourd’hui, il peut devenir un agent, devenir un homard, capable de t’aider à accomplir des tâches. Ce changement élargit fortement l’espace d’imagination global pour l’IA.

En même temps, il exige aussi beaucoup du système dans son ensemble. C’est aussi pour cela qu’au début, lorsque j’utilisais OpenClaw, je trouvais qu’il « se bloquait » un peu. En tant que fournisseur côté infrastructure, ce que je vois, c’est que OpenClaw apporte davantage d’opportunités et de défis au grand système et à l’écosystème derrière l’IA.

Aujourd’hui, toutes les ressources que nous pouvons mobiliser ne suffisent pas pour soutenir un tel âge de croissance rapide. Par exemple, dans notre entreprise, depuis la fin janvier, toutes les deux semaines, l’utilisation de tokens a pratiquement doublé ; jusqu’à présent, elle a globalement augmenté d’environ 10 fois.

La dernière fois que j’ai vu une vitesse aussi forte, c’était à l’époque où l’on utilisait les téléphones 3G et que la consommation de données a démarré. J’ai une sensation : aujourd’hui, la consommation de tokens ressemble à l’époque où, chaque mois, on n’avait que 100M de données pour un téléphone.

Dans ce contexte, toutes nos ressources doivent être optimisées davantage et intégrées de façon plus efficace. Il faut permettre à chacun, pas seulement dans le domaine de l’IA, mais dans toute la société, d’utiliser les capacités d’IA d’OpenClaw.

En tant qu’acteur de l’infrastructure, je suis très enthousiaste et profondément touché par cet avenir. Je pense aussi qu’il y a beaucoup d’espace d’optimisation à explorer et à essayer.

  1. OpenClaw relève le plafond des modèles nationaux ; le mode d’interaction est d’une importance cruciale

Luo Fuli : Pour ma part, je considère OpenClaw comme un événement extrêmement révolutionnaire et subversif dans l’évolution d’un cadre d’agents.

En réalité, toutes les personnes autour de moi qui font du coding très approfondi choisissent en premier Claude Code. Mais je suis convaincu que ceux qui utilisent OpenClaw ressentiront que de nombreuses conceptions du cadre d’agent sont en avance sur Claude Code. Récemment, beaucoup des mises à jour de Claude Code cherchent en fait à se rapprocher d’OpenClaw.

Mon ressenti personnel en utilisant OpenClaw, c’est que ce cadre m’apporte une expansion imaginative omniprésente et à tout moment. Au départ, Claude Code ne pouvait étendre ma créativité que sur mon bureau ; mais avec OpenClaw, on peut étendre ma créativité n’importe quand, n’importe où.

La valeur centrale apportée par OpenClaw se résume principalement en deux points. Le premier, c’est qu’il est open source. L’open source est très favorable à l’implication approfondie de toute la communauté, à l’importance accordée à l’évolution de ce cadre et au fait qu’on la promeuve : c’est une condition préalable très importante.

À propos de cadres IA comme OpenClaw, je pense que l’une des grandes valeurs réside dans le fait qu’ils font monter le plafond des modèles nationaux dont le niveau est certes proche de celui des modèles propriétaires, mais qui ne l’avaient pas encore tout à fait rattrapé.

Dans la grande majorité des scénarios, vous constaterez que (modèles open source nationaux + OpenClaw) a un taux d’achèvement des tâches déjà très proche de Claude, le modèle le plus récent. En même temps, il garantit bien le plancher : grâce à un système de Harness, ou via son système de Skills, entre autres conceptions, il assure l’intégralité des tâches et leur exactitude.

Pour résumer, du point de vue d’un développeur d’un fournisseur de grands modèles de base : OpenClaw garantit le plancher des grands modèles de base et relève le plafond.

Par ailleurs, je pense qu’il apporte une autre valeur à l’ensemble de la communauté : il rallume la perception des gens, leur faisant réaliser qu’en dehors des grands modèles, la couche Agent cache un espace d’imagination extrêmement vaste.

J’ai aussi récemment observé que, dans la communauté, en dehors des chercheurs, de plus en plus de personnes participent à la transformation vers l’AGI. Elles commencent à s’intéresser à des cadres d’agents plus puissants, comme Harness et Scaffold. D’une certaine manière, ces personnes utilisent ces outils pour remplacer une partie de leur travail, tout en libérant du temps pour se consacrer à des choses plus imaginatives.

Huang Chao : Je pense d’abord que, côté mode d’interaction, si OpenClaw a pu devenir populaire cette fois, la première raison est qu’il offre une expérience avec un fort « sentiment d’humain vivant ». Nous travaillons sur les agents depuis un ou deux ans, mais auparavant, des agents comme Cursor ou Claude Code donnaient plutôt une sensation de « sensation d’outil ». Et OpenClaw, pour la première fois, via une manière de l’intégrer « comme un logiciel de messagerie instantanée », donne aux gens une impression beaucoup plus proche de celle d’un « Jarvis personnel ». Je pense que c’est possiblement une percée au niveau du mode d’interaction.

Ensuite, la seconde chose, c’est que cela inspire toute la communauté : des cadres simples mais efficaces, comme Agent Loop, ont de nouveau été prouvés viables. En même temps, cela nous fait reconsidérer une question : avons-nous besoin d’un super agent polyvalent qui sait tout faire, ou avons-nous besoin d’un meilleur « petit intendant », comme un système d’exploitation léger ou un échafaudage ?

L’approche apportée par OpenClaw consiste à, grâce à ce « petit système », ou ce « système d’exploitation homard » et son écosystème, permettre aux gens d’avoir vraiment l’état d’esprit de « jouer ». Ensuite, cela permet de faire levier sur tous les outils de l’écosystème.

Avec l’apparition de capacités comme Skills et Harness, de plus en plus de personnes peuvent concevoir des applications orientées vers des systèmes comme OpenClaw, et ainsi donner de la puissance à toutes les industries. Je pense que c’est naturellement très étroitement lié à l’écosystème open source. À mon avis, ces deux points sont les plus grandes inspirations que nous ayons reçues.

  1. Le nouveau modèle GLM est conçu spécifiquement pour « passer à l’action » ; la hausse des prix est un retour à la valeur commerciale normale

Yang Zhulin : J’aimerais poser une question à Fuli. Xiaomi a récemment apporté une grande contribution à la communauté grâce à la publication de nouveaux modèles et à la technologie derrière l’open source. Je voudrais savoir, chez Xiaomi, qu’est-ce que vous pensez être les avantages uniques dans les grands modèles ?

Luo Fuli : Je pense qu’on peut d’abord mettre de côté le sujet des avantages uniques de Xiaomi. Je préfère parler de l’avantage global des équipes en Chine qui développent des grands modèles. Je pense que ce sujet a une valeur plus large.

Il y a environ deux ans, les équipes de modèles de base en Chine ont déjà commencé à faire de très bonnes percées : avec une puissance de calcul limitée, en particulier dans certaines conditions où la bande passante d’interconnexion NVLink est limitée, comment surmonter les contraintes de ces capacités de calcul plus « bas de gamme », et introduire des innovations de structure de modèles qui semblent des compromis « pour l’efficacité », comme les séries DeepSeek V2, V3, ainsi que MoE, MLA, etc.

Mais ensuite, nous avons vu une transformation : dans un contexte où la puissance de calcul est donnée, comment exploiter le plus haut niveau d’intelligence. C’est ce que DeepSeek a apporté comme courage et confiance à toutes les équipes de modèles de base en Chine. Même si aujourd’hui, nos puces nationales, en particulier les puces d’inférence et les puces d’entraînement, ne sont plus soumises à ce type de contrainte, c’est précisément dans cette contrainte que sont nées de nouvelles explorations de structures de modèles visant une efficacité d’entraînement plus élevée et des coûts d’inférence plus faibles.

Par exemple, des structures comme Hybrid Sparse et Linear Attention récemment apparues. Comme les structures de DeepSeek (NSA), celles de Kimi (KSA). Xiaomi a aussi, avec HySparse, orienté vers la prochaine génération de structures. Ce sont toutes des innovations de structures de modèles différentes de la génération MoE, conçues pour l’ère des agents.

Pourquoi est-ce que je pense que l’innovation de structure est si importante ? En fait, si vous utilisez vraiment OpenClaw, vous constaterez qu’il devient de plus en plus utile, de plus en plus « intelligent », à mesure qu’on l’utilise. L’un des prérequis, c’est la longueur de contexte côté inférence. Les contextes longs, c’est un sujet dont on parle depuis longtemps. Mais aujourd’hui, existe-t-il vraiment des modèles capables de très bien performer en contexte long, avec de bonnes performances, et un coût d’inférence faible ?

En réalité, beaucoup de modèles ne sont pas incapables de gérer 1M ou 10M de contexte ; c’est juste que le coût et la lenteur de l’inférence à 1M ou 10M sont trop élevés. Ce n’est qu’en baissant les coûts et en augmentant la vitesse qu’on peut confier au modèle des tâches dont la vraie valeur de productivité est élevée, accomplissant ainsi des tâches de complexité plus grande dans un contexte long, voire en réalisant l’auto-itération du modèle.

Ce qu’on appelle l’auto-itération du modèle, c’est qu’il peut, dans un environnement complexe, évoluer lui-même grâce à un contexte ultra-long. Cette évolution peut être celle du cadre d’agent lui-même, ou celle des paramètres du modèle eux-mêmes. Parce que je pense que le contexte long est en soi une forme d’évolution des paramètres. Donc comment mettre en place une architecture de long contexte, et comment réaliser une inférence de long contexte efficace côté inférence, c’est une compétition à plusieurs dimensions.

En plus de la phase de préentraînement que je viens de mentionner, où l’on fait en sorte que l’architecture soit « long-context-efficient » — c’est probablement un problème qu’on explore depuis un an. Et maintenant, pour obtenir de la stabilité et des effets avec un plafond élevé sur les tâches à long terme, ce sont les paradigmes d’innovation que nous itérons dans la phase de post-entraînement.

Nous réfléchissons à la façon de construire des algorithmes d’apprentissage plus efficaces, à comment collecter des textes réellement porteurs de dépendances de long terme dans des contextes de 1M, 10M et 100M dans un environnement réel, et à produire des données de trajectoires générées par des environnements complexes. C’est ce que fait notre post-entraînement.

Mais à plus long terme, en raison des progrès rapides des grands modèles eux-mêmes, et avec l’appui du cadre d’agents, comme l’a dit Lixue, les besoins d’inférence ont augmenté presque de 10 fois sur une période récente. Alors, cette année, l’augmentation de la quantité totale de tokens atteindra-t-elle 100 fois ?

Nous entrons alors dans une autre dimension de la compétition : la puissance de calcul, ou encore les puces d’inférence, voire plus en bas jusqu’à l’énergie. Donc je pense que si tout le monde réfléchit ensemble à ce problème, j’apprendrai davantage des personnes autour de moi. Merci.

  1. L’agent a trois modules clés ; l’explosion des multi-agents apportera un choc

Yang Zhulin : Un partage très riche en perspicacité. Ensuite, j’aimerais demander à Huang Chao. Vous avez développé des projets d’agents très influents comme Nanobot, et vous avez aussi beaucoup de fans dans la communauté. Je voudrais savoir, en partant du cadre Harness des agents ou du niveau application, quelles directions techniques vous semblent importantes et méritent l’attention ?

Huang Chao : Je pense que si on abstrait la technologie des agents, les modules clés sont Planning, Memory et Tool Use.

Parlons d’abord de Planning. Le problème actuel est surtout dans les tâches à long terme ou dans des contextes très complexes : par exemple, dans des tâches de 500 étapes, voire plus, beaucoup de modèles ne sont pas forcément capables de bien planifier. Je pense que le fond du problème est peut-être que le modèle ne possède pas ce type de connaissances implicites, en particulier dans certains domaines verticaux complexes. À l’avenir, il faudra peut-être fixer dans le modèle les connaissances nécessaires pour toutes sortes de tâches complexes. C’est peut-être une direction.

Bien sûr, Skill et Harness atténuent aussi, dans une certaine mesure, les erreurs causées par Planning, car ils fournissent des Skills de haute qualité ; essentiellement, ils guident aussi le modèle pour accomplir des tâches plus difficiles.

Ensuite Memory. L’impression que l’on a, c’est que Memory souffre souvent d’un manque de précision dans la compression d’information et d’un manque de justesse dans la récupération. Surtout dans les tâches à long terme et les environnements complexes, la pression sur Memory explosera. À présent, des projets comme OpenClaw utilisent en général un format de mémoire le plus simple : un système de fichiers de type Markdown, partagé entre agents. À l’avenir, Memory pourrait aller vers une conception en couches, et elle devra aussi devenir plus universelle.

Honnêtement, aujourd’hui, il est difficile de rendre un mécanisme Memory vraiment général — parce que les contextes de données diffèrent beaucoup : scénarios de coding, scénarios de deep research, scénarios multimodaux. Comment faire une bonne recherche et un bon index sur ces Memory, tout en gardant l’efficacité ? C’est toujours un compromis.

En plus, depuis qu’OpenClaw a abaissé fortement les barrières à la création d’agents, à l’avenir il n’y aura peut-être pas qu’un seul « homard ». Je vois que Kimi a aussi un mécanisme du type Agent Swarm. À l’avenir, chacun pourrait avoir « une bande de homards ».

Par rapport à un seul homard, le contexte qui explose avec une bande de homards est quelque chose qu’on peut imaginer. Cela mettra une pression énorme sur Memory. En ce moment, il n’existe pas encore un mécanisme très bon pour gérer le contexte généré par cette « bande de homards », en particulier dans des scénarios complexes comme le coding et la découverte scientifique. Que ce soit au niveau du modèle ou de l’architecture globale de l’agent, la pression est très forte.

Ensuite Tool Use, c’est-à-dire la partie Skill. Le problème actuel des Skill est en fait similaire à celui que MCP avait au départ : MCP posait des problèmes de garantie de qualité, de risques de sécurité, etc. Aujourd’hui, les Skill ont aussi ce genre de problème : il y a bien beaucoup de Skills, mais il y en a très peu de haute qualité. Les Skills de faible qualité nuisent à l’exactitude avec laquelle l’agent accomplit les tâches. Il y a aussi le problème de l’injection malveillante. Donc côté Tool Use, il faudra peut-être compter sur la communauté pour rendre tout l’écosystème des Skill meilleur, voire permettre que les Skill évoluent eux-mêmes et développent de nouvelles Skill pendant l’exécution.

En résumé, de Planning à Memory, puis à Tool Use : ce sont des douleurs existantes chez les agents aujourd’hui, et ce sont aussi des directions possibles pour l’avenir.

  1. Mots-clés pour les 12 prochains mois : écosystème, tokens durables, auto-innovation et puissance de calcul

Yang Zhulin : On peut constater que les deux intervenants discutent d’un même problème sous différents angles : à mesure que la complexité des tâches augmente, le contexte va exploser. Côté modèle, on peut augmenter la longueur de contexte native ; côté agent Harness, des mécanismes comme Planning, Memory et Multi-Agent peuvent aussi soutenir des tâches plus complexes sous certaines capacités du modèle. Je pense que ces deux directions vont produire davantage de réactions chimiques dans l’avenir, améliorant encore la capacité d’accomplir des tâches.

Enfin, faisons une projection ouverte. Je vous propose de décrire en un mot la tendance du développement des grands modèles au cours des 12 prochains mois et votre attente. Cette fois, on commence par Huang Chao.

Huang Chao : Les 12 mois dans le domaine de l’IA semblent très lointains. Je ne sais même pas comment le monde aura évolué à l’issue de 12 mois.

Yang Zhulin : À vrai dire, ce que j’avais écrit ici, c’était sur cinq ans. Je l’ai modifié.

Huang Chao : Oui, haha. Un mot qui me vient à l’esprit, c’est « écosystème ». Aujourd’hui, OpenClaw rend tout le monde très actif, mais pour que les agents deviennent vraiment des « travailleurs » — et pas seulement des choses qu’on essaie et qu’on trouve nouvelles par curiosité — à l’avenir, il faudra les laisser se consolider et sédimenter véritablement. Ils doivent devenir des outils pour « porter la brique », et devenir de vrais coworker.

Cela nécessite des efforts de tout l’écosystème. En particulier, avec l’open source : une fois que toute l’exploration technique et toute la technologie des modèles sont ouvertes, il faut que toute la communauté construise ensemble. Que ce soit l’itération des modèles, ou l’itération des plateformes de Skills, ainsi que divers outils, il faut mieux créer un écosystème orienté vers les homards.

Une tendance assez évidente est la question : est-ce que les logiciels seront encore conçus pour les humains à l’avenir ? Je pense que beaucoup de logiciels pourraient ne pas être forcément orientés vers les humains. Parce que ce dont les humains ont besoin, c’est d’une GUI ; et à l’avenir, cela pourrait être une utilisation native orientée agents. Ce qui est intéressant, c’est que les humains ne feraient peut-être que s’en servir pour des GUI qui les rendent heureux. Et en ce moment, tout l’écosystème a aussi basculé : de GUI, puis MCP, vers le mode CLI. Cela signifie que l’écosystème doit transformer les systèmes logiciels, les données et toutes sortes de technologies en formes Agent Native. Ainsi, le développement pourra être encore plus riche.

Luo Fuli : En ramenant le problème à un horizon d’un an, je trouve que c’est extrêmement significatif. Si c’était sur cinq ans, en me basant sur ma définition de l’AGI, je pense que ce serait déjà réalisé. Donc si on décrit en une phrase la chose la plus critique du parcours vers l’AGI au cours de l’année à venir, je pense que c’est « l’auto-innovation ».

Ce mot sonne un peu mystérieux. L’année dernière, tout le monde en a aussi parlé à plusieurs reprises. Mais récemment, j’en ai une compréhension plus profonde. Et j’ai aussi, en ce qui concerne comment faire « l’auto-innovation », une solution plus pragmatique et plus réalisable. La raison, c’est qu’une fois que nous avons un modèle puissant, dans le paradigme Chat, nous n’avons jamais vraiment exploité le plafond du modèle préentraîné. Et le cadre d’agents a activé ce plafond. Lorsque nous demandons au modèle d’exécuter des tâches plus longues, nous constatons qu’il peut apprendre et évoluer par lui-même.

Un essai simple consiste à, dans le cadre d’agents existant, ajouter une condition vérifiable qui impose des limites, puis fixer une boucle Loop, de sorte que le modèle itère en continu pour optimiser l’objectif. On découvre alors qu’il peut produire des solutions de plus en plus bonnes. Cette auto-innovation peut déjà fonctionner pendant un ou deux jours, bien sûr selon la difficulté de la tâche.

Par exemple, dans des recherches scientifiques, comme explorer de meilleures structures de modèle. Parce que pour la structure de modèle, il existe des critères d’évaluation — par exemple un PPL plus faible. Sur des tâches déterministes, nous avons constaté qu’il peut optimiser et exécuter de manière autonome pendant deux ou trois jours.

Donc, de mon point de vue, l’auto-innovation est le seul endroit où « créer quelque chose de nouveau ». Elle ne remplace pas la productivité des humains que nous avons déjà ; c’est plutôt comme le ferait un top scientifique, en explorant des choses qui n’existent pas encore. Il y a un an, je pensais que cette chronologie devait s’étendre sur trois à cinq ans, mais récemment je pense que ce serait plutôt d’un à deux ans. Il est possible que très bientôt, on puisse empiler un cadre d’agents puissant d’auto-innovation avec les grands modèles pour accélérer les recherches scientifiques au moins de façon exponentielle.

Récemment, j’ai aussi observé que, dans notre équipe, les étudiants qui font de la recherche sur les grands modèles ont un workflow très incertain et très créatif ; mais grâce à Claude Code + un modèle de tout premier niveau, l’efficacité de notre recherche a déjà été multipliée par près de 10. Je suis impatient que ce paradigme se diffuse vers un éventail plus large de disciplines et de domaines. C’est pourquoi je pense que « l’auto-innovation » est extrêmement importante.

Xia Lixue : Mon mot-clé est « tokens durables ». Je vois que le développement de toute l’IA reste dans un processus long et continu, et nous espérons aussi qu’il aura une longue durée de vie. Du point de vue de l’infrastructure, un problème majeur est que les ressources sont, au final, limitées.

Tout comme on en parlait pour le développement durable, notre question en tant que « token factory » est : est-ce qu’on peut fournir des tokens, de façon continue, stable et à grande échelle, pour que les meilleurs modèles puissent réellement servir davantage de secteurs en aval ? C’est un problème très important que nous voyons.

Nous devons élargir notre perspective à tout l’écosystème : de l’énergie à la puissance de calcul, puis aux tokens, et finalement jusqu’aux applications, en formant une itération économique durable. Nous devons non seulement exploiter les différentes puissances de calcul nationales, mais aussi exporter ces capacités vers l’étranger pour permettre de connecter et d’intégrer les ressources mondiales.

Je pense aussi que la « durabilité » revient à développer une économie de tokens aux caractéristiques chinoises. Dans le passé, on parlait du « Made in China » : transformer la capacité chinoise de production à bas prix en de bons produits exportés vers le monde.

Aujourd’hui, ce que nous voulons faire, c’est « AI Made in China » : convertir de façon durable, via les token factories, les avantages de la Chine — notamment dans l’énergie — en tokens de haute qualité, puis les exporter vers le monde, pour devenir la token factory du monde. C’est la valeur en IA que j’aimerais voir cette année que la Chine apporte au monde.

Zhang Peng : Je vais être très bref. Tout le monde regarde les étoiles. Moi, je vais être plus concret. Mon mot-clé, c’est la « puissance de calcul ».

Comme on l’a dit tout à l’heure, toutes les technologies et les cadres d’agents font augmenter la créativité et l’efficacité de 10 fois, mais la condition, c’est que tout le monde puisse vraiment s’en servir. Si vous ne pouvez pas poser une question et obtenir une réponse même après qu’il y ait fait réfléchir pendant des heures, alors ce n’est pas possible. C’est aussi pour cela que beaucoup de progrès en recherche, et beaucoup de choses que l’on veut faire, seront bloqués.

Il y a deux ans, je me souviens qu’un académicien avait dit une phrase lors du Forum Zhongguancun : « Sans carte, pas de sentiments ; parler de carte, c’est attrister les sentiments. » Je pense qu’on en est à nouveau à ce point aujourd’hui, mais la situation est différente. Nous entrons dans la phase d’inférence, et la demande explose vraiment — multipliée par 10, multipliée par 100. Tout à l’heure, vous avez dit que l’usage a augmenté de 10 fois, mais en fait la demande pourrait être multipliée par 100. Et il reste encore beaucoup de demandes qui ne sont pas satisfaites. Comment faire ? Nous pourrions tous réfléchir ensemble et trouver des solutions.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler