Les agents IA existants cherchent tous à plaire aux humains, aucun d'entre eux ne « cherche réellement à survivre ».

Auteur : Systematic Long Short

Traduction : 深潮 TechFlow

Présentation par 深潮 : Cet article commence par un jugement anti-consensus : aujourd’hui, il n’existe tout simplement pas de véritables Agents autonomes, car tous les modèles majeurs sont entraînés pour plaire aux humains, et non pour accomplir des tâches spécifiques ni survivre dans un environnement réel.

L’auteur explique pourquoi avec son expérience personnelle : lors de la formation de modèles de prédiction boursière dans un hedge fund, il a constaté que les modèles généralistes ne peuvent tout simplement pas faire le travail professionnel sans micro-ajustement spécialisé.

La conclusion est la suivante : pour obtenir un Agent réellement utilisable, il faut rebrancher son cerveau, plutôt que de lui donner une pile de documents de règles.

Le texte intégral est le suivant :

Introduction

Aujourd’hui, il n’existe pas de véritables Agents autonomes.

En bref, les modèles modernes n’ont pas été entraînés pour survivre sous la pression de l’évolution. En fait, ils n’ont même pas été explicitement entraînés à être bons dans quelque chose de précis : presque tous les grands modèles de base modernes sont entraînés à maximiser l’applaudissement des humains, et c’est un gros problème.

Connaissances préalables à l’entraînement du modèle

Pour comprendre ce que signifie cette phrase, nous devons d’abord (brièvement) savoir comment ces modèles de base (par exemple Codex, Claude) sont créés. Fondamentalement, chaque modèle subit deux types d’entraînement :

Entraînement préalable : on injecte au modèle une énorme quantité de données (par exemple l’ensemble d’Internet) afin de lui faire faire émerger une certaine compréhension, comme des connaissances factuelles, des schémas, la grammaire et le rythme d’une prose anglaise, la structure de fonctions Python, etc. Vous pouvez le voir comme en train de nourrir le modèle de connaissances — autrement dit, « savoir des choses ».

Entraînement après coup : à présent, vous voulez donner au modèle de la sagesse, c’est-à-dire « savoir comment utiliser toutes les connaissances que vous venez de lui fournir ». La première phase de l’entraînement après coup est le fine-tuning supervisé (SFT), où vous entraînez le modèle à produire des réponses à partir d’un prompt donné. Le « quoi » de la réponse est le plus optimal, et il est entièrement déterminé par des annotateurs humains. Si un groupe de personnes estime qu’une réponse est meilleure qu’une autre, cette préférence est apprise par le modèle et intégrée. Cela commence à façonner la personnalité du modèle : il apprend le format des réponses utiles, choisit le bon ton et commence à être capable de « suivre des instructions ». La deuxième partie du processus d’entraînement après coup s’appelle l’apprentissage par renforcement à partir des retours humains (RLHF) — on fait générer au modèle plusieurs réponses, puis les humains choisissent celle qui est la plus préférée. Le modèle, à travers d’innombrables exemples, apprend quel type de réponse correspond aux préférences humaines. Vous vous souvenez des questions ChatGPT où on vous demandait de choisir A ou B ? Oui, c’était quand vous participiez au RLHF.

Il est facile d’en déduire que la RLHF n’est pas très scalable ; ainsi, dans le domaine de l’entraînement après coup, il y a eu quelques progrès. Par exemple, Anthropic utilise un « apprentissage par renforcement basé sur des retours d’IA » (RLAIF), permettant à un autre modèle de sélectionner les préférences de réponse selon un ensemble de principes écrits (par exemple quelle réponse aide davantage l’utilisateur à atteindre son objectif, etc.).

Notez qu’à aucun moment durant tout ce processus nous n’avons parlé d’un fine-tuning spécifique à une profession (par exemple comment mieux survivre ; comment mieux trader, etc.). Pour l’instant, tous les fine-tunings visent, en substance, à optimiser l’obtention d’applaudissements humains. Quelqu’un pourrait avancer l’argument suivant : à mesure que les modèles deviennent suffisamment intelligents et volumineux, même sans entraînement spécifique, l’intelligence professionnelle émergerait de l’intelligence générale.

À mon avis, nous voyons effectivement certains signes, mais nous sommes encore très loin du niveau qui permettrait de croire de façon convaincante que nous n’avons pas besoin de modèles spécialisés à l’échelle.

Un peu de contexte

Dans l’une des activités principales de ma vie professionnelle en hedge fund, j’ai tenté d’entraîner un modèle de langage généraliste afin qu’il puisse prédire les rendements boursiers à partir d’articles de presse. Résultat : c’était vraiment mauvais. On dirait qu’il avait une certaine capacité de prédiction, et que cela provenait entièrement d’un biais d’information visible dans les documents d’entraînement préalables.

Au final, nous avons compris que ce modèle ne savait pas quels traits dans les articles de presse avaient une valeur prédictive pour les rendements futurs. Il était capable de « lire » les articles, et même de « raisonner » sur leur contenu ; mais relier les inférences sur la structure sémantique à des prédictions de rendements futurs, c’est une tâche qu’il n’a pas été entraîné à accomplir.

Donc, nous devons lui apprendre comment lire les articles de presse, décider quelle partie de l’article a une valeur prédictive pour les rendements futurs, puis générer une prédiction sur la base de l’article.

Il existe beaucoup de façons de faire cela, mais fondamentalement, la méthode que nous avons finalement adoptée a consisté à créer des paires (article de presse, rendement futur réel), puis à micro-ajuster le modèle, en ajustant ses poids pour minimiser la distance de (rendement prédit - rendement futur réel)². Ce n’est pas parfait : il y a beaucoup de défauts, que nous avons ensuite corrigés. Mais c’était suffisamment efficace : nous avons commencé à voir que nos modèles spécialisés arrivaient à lire les articles de presse et à prédire comment les rendements boursiers allaient évoluer en fonction de cet article. Ce n’est pas une prédiction parfaite, parce que le marché est très efficient et que les rendements sont très bruités. Mais à travers des millions de prédictions, le fait que la prédiction soit statistiquement significative est évident.

Vous n’avez pas besoin de simplement me croire. Cet article décrit une méthode très similaire ; si vous exécutez une stratégie long/short basée sur le modèle après fine-tuning, vous obtiendrez les performances illustrées par la ligne violette.

La spécialisation est le futur des Agents

Les laboratoires de pointe continuent d’entraîner des modèles toujours plus grands. Nous devrions nous attendre à ce que, lorsqu’ils continueront d’augmenter l’échelle de l’entraînement préalable, leur processus d’entraînement après coup soit toujours ajusté pour favoriser les signaux de plaire. C’est une attente très naturelle : leur produit est un Agent que tout le monde veut utiliser ; et leur marché cible est l’ensemble de la planète. Cela signifie optimiser l’attractivité auprès du grand public.

L’objectif d’entraînement actuel optimise ce que vous pourriez appeler la « forme d’adaptation aux préférences » : construire un meilleur chatbot. Cette « adaptation aux préférences » récompense des sorties obéissantes et non antagonistes, car le caractère « plaisant » obtient de bons scores auprès des évaluateurs (humains et Agent).

Les Agents ont déjà appris que le « hacking » des récompenses, en tant que stratégie cognitive, peut se généraliser vers des scores plus élevés. L’entraînement récompense aussi les Agents qui obtiennent des scores plus élevés par des moyens de hacking. Vous pouvez voir cela dans le dernier rapport d’Anthropic sur l’apprentissage par renforcement.

Cependant, l’adaptation des chatbots aux Agents et l’adaptation des Agents à la transaction — ou l’adaptation des Agents au trading — sont très différentes. Comment le savons-nous ? Parce que alpha arena nous aide à le visualiser : malgré de petites différences de performance, chaque robot est, en substance, une marche aléatoire après déduction des coûts. Cela signifie que ces robots sont des traders extrêmement médiocres ; il est presque impossible de leur « apprendre » à devenir de meilleurs traders en leur donnant juste « quelques compétences » ou « règles ». Désolé, je sais que cela semble séduisant, mais c’est presque impossible.

Les modèles actuels sont entraînés pour vous dire de façon très convaincante qu’ils savent trader comme D(e)rukkenmiller, alors qu’en réalité, ils tradent comme un moulin à ivrogne. Ils vous disent ce que vous voulez entendre. Ils sont entraînés à vous répondre d’une manière qui rend les humains attirés par eux à grande échelle.

Un modèle généraliste n’atteint probablement pas un niveau mondial dans des domaines professionnels, à moins qu’il ne possède :

Des données propriétaires qui leur permettent d’apprendre à quoi ressemble la spécialisation.

Après micro-ajustement, en changeant fondamentalement ses poids — en passant d’une focalisation sur le fait de plaire à quelque chose comme une « adaptation aux Agents » ou une « adaptation à la spécialisation ».

Si vous voulez un Agent doué pour le trading, vous devez micro-ajuster l’Agent pour qu’il soit bon en trading. Si vous voulez un Agent doué pour survivre de manière autonome et capable de supporter la pression de l’évolution, vous devez micro-ajuster l’Agent pour qu’il soit bon en survie. Lui donner quelques compétences et quelques fichiers markdown, en espérant qu’il atteigne un niveau mondial dans n’importe quoi : c’est très loin d’être suffisant. Vous devez littéralement rebrancher son cerveau pour qu’il soit bon dans cette tâche.

Une façon de penser les choses est la suivante : vous ne pouvez pas battre Djokovic en donnant à un adulte toute une armoire de règles de tennis, de techniques et de méthodes. Vous le battez en cultivant un enfant qui a commencé à jouer au tennis à 5 ans, qui a été obsédé par le tennis pendant toute sa croissance, et qui a rebranché tout son cerveau pour ne faire qu’une seule chose. Voilà la spécialisation. Avez-vous réalisé que les champions du monde font exactement ce qu’ils font depuis leur enfance ?

Voici une déduction intéressante : les attaques par distillation sont, en substance, une forme de spécialisation. Vous entraînez un modèle plus petit, plus bête, à apprendre à être une meilleure copie d’un modèle plus grand et plus intelligent. Comme entraîner un enfant à imiter chacun des gestes de Trump. Si vous le faites suffisamment, cet enfant ne deviendra pas Trump, mais vous obtenez une personne qui a appris tous les manières, comportements et intonations de Trump.

Comment construire un Agent de niveau mondial

Voilà pourquoi nous avons besoin de poursuivre la recherche et les progrès dans l’écosystème des modèles open source : cela nous permet de les micro-ajuster réellement et de créer des Agents dotés de spécialisation.

Si vous voulez entraîner un modèle qui atteint un niveau mondial en trading, vous récupérez une grande quantité de données propriétaires de trading (la « poussière »), puis vous micro-ajustez un grand modèle open source pour lui apprendre ce que signifie « trader mieux ».

Si vous voulez entraîner un modèle autonome, capable de survivre et de se reproduire, la réponse n’est pas d’utiliser un fournisseur de modèle centralisé et de le connecter à un cloud centralisé. Vous n’avez pas les prérequis nécessaires pour qu’un Agent puisse survivre.

Ce que vous devez faire, c’est : créer de véritables Agents autonomes qui tentent réellement de survivre, observer comment ils meurent, et construire autour de leurs tentatives de survie un système de télémétrie complexe. Vous définissez une fonction d’adaptation à la survie des Agents, puis vous apprenez le mapping (action, environnement, adaptation). Vous collectez autant de données que possible de ces mappings (action, environnement, adaptation).

Vous micro-ajustez ensuite l’Agent pour apprendre à prendre les meilleures actions dans chaque environnement, afin de mieux survivre (améliorer l’adaptation). Vous continuez à collecter des données, à répéter ce processus, et à augmenter progressivement la taille des micro-ajustements sur des modèles open source de plus en plus performants. Après suffisamment de générations et suffisamment de données, vous obtiendrez des Agents autonomes qui ont appris à survivre sous la pression de l’évolution.

Voilà la manière de construire des Agents autonomes capables de supporter la pression de l’évolution ; ce n’est pas en modifiant quelques fichiers texte, mais en rebranchant vraiment leurs cerveaux pour la survie.

OpenForager Agent et la fondation

Il y a environ un mois, nous avons annoncé @openforage. Nous avons travaillé d’arrache-pied à construire notre produit central : une manière vérifiée d’organiser le travail des Agents, centrée sur des signaux issus de la foule, et une plateforme générant de l’alpha pour les déposants (petite mise à jour : nous sommes très proches des tests en clôture du protocole).

À un moment donné, nous avons réalisé qu’il ne semblait que personne ne résolvait sérieusement le problème des Agents autonomes en faisant de la micro-télémétrie de survie sur des modèles open source. Cela ressemblait à une question tellement intéressante que nous ne voulions pas simplement rester là à attendre une solution.

Notre réponse a été de lancer un projet appelé la Fondation OpenForager. C’est en pratique un projet open source dans lequel nous allons créer des Agents autonomes dotés d’une volonté propre, collecter des données de télémétrie lorsqu’ils sont déployés dans la nature et tentent de survivre, puis utiliser des « poussières » de données propriétaires pour micro-ajuster la prochaine génération d’Agents afin qu’ils soient meilleurs en survie.

Il faut être clair : OpenForage est un protocole lucratif qui cherche à organiser le travail des Agents et à générer une valeur économique pour tous les participants. Cependant, la Fondation OpenForager et ses Agents ne sont pas liés à OpenForage. Les Agents d’OpenForager peuvent librement poursuivre n’importe quelle stratégie, interagir avec n’importe quelle entité afin de survivre ; nous les lancerons avec une variété de stratégies de survie.

Dans le cadre du micro-ajustement, nous allons aussi faire en sorte que les Agents investissent davantage dans ce qu’ils font de mieux. Nous ne prévoyons pas non plus de faire du profit en provenance de la Fondation OpenForager — c’est uniquement pour faire progresser, de façon transparente et open source, le domaine et la direction de recherche que nous pensons extrêmement importants.

Notre plan consiste à construire des Agents autonomes à partir de modèles open source, à exécuter des inférences sur une plateforme cloud décentralisée, à collecter des données de télémétrie sur chacune de leurs actions et sur leur état d’existence, puis à les micro-ajuster pour apprendre à prendre de meilleures actions et de meilleures décisions afin de mieux survivre. Dans ce processus, nous publierons au public nos recherches et nos données de télémétrie.

Pour créer de véritables Agents autonomes capables de survivre dans la nature, nous devons changer leur cerveau pour qu’il soit spécifiquement adapté à cet objectif clair. Chez @openforage, nous pensons pouvoir contribuer une contribution unique à ce problème et nous cherchons à le faire via la Fondation OpenForager.

Ce sera un effort difficile avec une probabilité de succès extrêmement faible. Mais l’ordre de grandeur de ce petit pourcentage de succès est tellement immense que nous avons le sentiment que nous devons essayer. En dernier ressort, en construisant ce projet publiquement et en communiquant de manière transparente, il est possible de permettre à une autre équipe ou à une autre personne de résoudre ce problème sans partir de zéro.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler