Revue complète : Comment Manus est-il né ?

Intermédiaire3/17/2025, 7:40:21 AM
Cet article fournit une analyse approfondie de l'origine de la naissance de Manus.im, des concepts de produits et de ses pratiques innovantes dans le domaine de l'IA.

L'histoire entrepreneuriale qui a reçu le plus de nourriture spirituelle l'année dernière est venue du fondateur de Gate.io, Zhang Luyu.

La première fois que je l'ai rencontré, c'était lors de l'événement "Xixi Taoism" en 2023. Parmi les noms célèbres présents, Zhang Luyu passait inaperçu. Lorsque nous nous sommes revus en 2024, Dify était déjà une autre histoire - un entrepreneur sans antécédents glamour, qui a créé l'un des produits open source d'IA les plus réussis au monde, malgré les doutes de chacun sur le modèle économique.

Ce qui est arrivé à cette entreprise en un an, comme sa popularité inattendue sur le marché japonais, qui est "conventionnel et facile à défendre mais difficile à attaquer", m'a aidé à comprendre davantage l'"entrepreneuriat". Il s'agit principalement d'accidents et nécessite également de la chance. En fin de compte, vous devez avoir la capacité de trouver une solution aux changements constants et aux retours de flamme.

Maintenant, une histoire similaire est arrivée à un autre entrepreneur de haut profil—Manus.im Xiao Hong et son équipe.

Il y a quatre mois, Xiao Hong a mentionné une confusion, "L'équipe est douée pour passer de 0 à 1 et a une forte capacité à saisir les opportunités. Une fois qu'elle commence de 1 à N, l'état n'est pas si bon."

Dans ses expériences passées, la plupart des projets entrepreneuriaux ont généré des revenus relativement stables et importants, et sa dernière entreprise a également été acquise avec succès. En 2023, sa nouvelle entreprise « Butterfly Effect » a même utilisé un plug-in de navigateur, Monica.im, pour concourir dans le domaine de l'intelligence artificielle avec des centaines de modèles et est devenue l'une des applications d'IA à la croissance la plus rapide avec une excellente expérience produit. Il semble être un entrepreneur qui a eu un parcours sans heurts. Il n'a que 32 ans lorsqu'il peut réaliser ces exploits.

Mais en réalité, il ne se sentait pas trop heureux. Aux yeux de Xiao Hong, le soi-disant "départ continu des entrepreneurs" et le prétendu sentiment rafraîchissant de passer constamment de 0 à 1 sont comme un siège - la capacité de saisir les opportunités de 0 à 1 est très forte et très satisfaisante, mais d'un autre côté, vous vous inquiétez également de savoir si vous devrez le refaire.

En 2024, les initiés de l'industrie estiment que les assistants IA avec des fonctions de mémoire comme Monica.im seront confrontés à la pression de puissants adversaires tels que Doubao, et cela ne sera pas aussi facile qu'en 2023. Monica.im a un bon 0 à 1, mais ce n'est pas nécessairement un succès de 1 à N.

Et la raison pour laquelle il est confus est que "l'équipe va vraiment faire des choses plus difficiles et des choses avec des plafonds plus élevés ensuite" et explorer des choses qui peuvent aller de 1 à N.

Plus tôt, de nombreuses voix attentives à Monica.im ont supposé que ce “quelque chose de plus difficile et avec un plafond plus élevé” fait référence au navigateur IA dont on parle depuis longtemps mais qui n'a pas été publié par l'équipe. En y réfléchissant maintenant, il est vrai que j'ai mal deviné.

Cette exploration plus difficile est en fait : abandonner le navigateur d’IA qui a atteint le statut de version, rechercher le prochain produit d’IA « moment ChatGPT », trouver l’objectif d’un agent universel et créer la dernière version de Manus.im.

Dans quelle mesure Manus est innovant et à quel niveau il peut atteindre à l'avenir est maintenant un sujet d'actualité. Mais ce qui vaut la peine d'être observé, c'est toujours la direction trouvée dans le "les choses vont à l'encontre des attentes" et le processus de recherche de la direction. Manus.im peut ne pas permettre à cette équipe d'accomplir des choses de 1 à N, ou même de reproduire l'élan de Monica.im, mais tout comme le nom de cette entreprise - "Effet Papillon", de nombreuses petites actions et décisions ont involontairement un impact profond sur l'avenir, "Relier les points", le chemin de demain sera caché dans l'expérience d'aujourd'hui.

01 L'expérience produit unique de Manus vient des leçons apprises en créant un "navigateur AI"

Depuis le milieu à la fin de l'année dernière, le navigateur IA de l'équipe 'Effet Papillon' est devenu un secret 'semi-public' dans l'industrie. Le produit qui a été officiellement dévoilé au public était Manus, qui a attiré une attention incontrôlable.

Si vous avez personnellement vécu Manus ou regardé la vidéo de démonstration, vous sentirez qu'il a une différence significative par rapport aux chatbots ou à certaines applications de type agent : Manus peut exécuter des tâches de manière asynchrone et en parallèle.

Lorsque vous ouvrez une application comme Doubao, Kimi, ou quelque chose comme Computer Use et que vous lui envoyez une question, vous devez attendre qu'elle réponde. Sinon, si vous lui parlez pendant qu'elle répond ou qu'elle effectue une tâche, la réponse/tâche précédente sera interrompue, et vous ne pourrez avoir qu'une conversation en relais A-B-A-B avec elle.

Cependant, dans Manus.im, bien qu'il ressemble toujours à un produit de chatbot, vous pouvez lui poser 20 questions pour qu'il effectue des tâches simultanément. Vous pouvez faire autre chose sur l'ordinateur, regarder des vidéos, écrire des documents, jouer à des jeux, etc., sans retarder son travail. Manus peut vous informer une fois que ces tâches sont terminées ou si des problèmes surviennent pendant l'exécution. Si vous constatez des écarts dans sa réflexion lors de l'exécution d'une tâche, vous pouvez ajouter des mots d'incitation à la boîte de dialogue à tout moment, et il continuera à réfléchir et à exécuter la tâche avec le nouveau contexte.

L'expérience est asynchrone et peut être parallélisée, et cela ressemble vraiment à avoir une équipe de vrais stagiaires qui peuvent vous aider à travailler.

En fait, la conception de l'architecture produit de Manus pour une expérience asynchrone est originaire d'une leçon apprise par l'équipe dans son produit précédent non divulgué, le navigateur AI. En même temps, c'est aussi la raison pour laquelle l'équipe a investi beaucoup d'énergie mais a décidé d'arrêter de travailler sur le navigateur en octobre de l'année dernière.

La société Browser a annoncé le 25 octobre 2024 qu'elle cesserait de développer de nouvelles fonctionnalités pour le navigateur Arc et a décidé de transférer des ressources vers un nouveau navigateur, Dia, dans le but de créer un navigateur AI plus simple et plus facile à utiliser. |Source : site officiel d'Arc

“Dans le navigateur AI, l'IA interrompt constamment l'utilisateur.” Parce qu'il s'agit d'un scénario conçu pour un seul utilisateur, une fois que l'IA est utilisée, vous ne pouvez plus l'utiliser. Lorsque l'IA commence à fonctionner, vous ne pouvez que regarder l'IA travailler, ce qui est difficile à démarrer. Regarder l'IA vous arracher la souris et l'ordinateur, non seulement vous n'osez pas les lui arracher, mais vous avez aussi peur qu'un contact accidentel avec le clavier ou la souris fasse tout s'effondrer et vous oblige à recommencer depuis le début.

Cela permet à l'équipe de faire deux jugements:

  1. Utiliser directement l'ordinateur pour l'utilisation de l'ordinateur n'est pas réalisable en peu de temps.
  2. L'IA devrait utiliser un navigateur, mais pas dans votre navigateur. Elle devrait avoir son propre navigateur, de préférence dans le cloud, et enfin vous renvoyer les résultats.

Lors d'une interview avec Zhang Xiaojun de Tencent Technology, Xiao Hong a mentionné que lorsque l'équipe résumait les formes de produits de Jasper à ChatGPT en passant par Monica, Cursor et Devin, ils ont constaté que le "programmeur humain" Devin était très adapté à cette architecture d'expérience asynchrone.

Contrairement à l'utilisation de Windsurf, il arrive parfois qu'il vous demande de confirmer si votre ordinateur doit installer cette bibliothèque; ou qu'il exécute une opération en ligne de commande et vous demande de remplir oui ou non, car cela pourrait vraiment endommager votre ordinateur, ou qu'il y ait un conflit avec quelque chose - il vous demande de remplir "oui" pour passer à l'étape suivante, mais il doit rejeter la faute.

Par conséquent, selon l'équipe de Manus, « le Chatbot devrait disposer d'un ordinateur dans le cloud, et le code qu'il écrit et les éléments à vérifier à travers le navigateur sont exécutés sur cet ordinateur. Comme il s'agit d'un serveur virtuel, peu importe s'il tombe en panne, vous pouvez en obtenir un autre. Il peut même libérer le serveur après la tâche en cours est terminée.

Il convient de noter que tandis que Devin a choisi des domaines verticaux et des ingénieurs hardcore, l'équipe de Manus a choisi des assistants d'IA polyvalents de niveau grand public, y compris Web et App. Il s'agit d'un assistant d'IA polyvalent qui peut appeler des outils et accomplir diverses tâches dans le travail et la vie selon les instructions. À l'avenir, il livrera également des résultats de tâches à un prix abordable pour les consommateurs.

02 Moins de Structure, Plus d'Intelligence

Avec une idée claire et un objectif, la prochaine étape consiste à réaliser l'idée. Comment Manus a-t-il fait ?

Selon son partenaire produit Zhang Tao, cela nécessite d'équiper le grand modèle d'un ordinateur, ainsi que de lui accorder des autorisations système (accès à des API privées telles que des référentiels de code et des sites web de requête de données professionnels), et de lui fournir une formation spécifique.

De cette façon, l'IA peut utiliser cet ordinateur pour ouvrir un navigateur, prendre des mesures pour planifier des outils, puis observer l'impact de ses actions sur le monde réel en fonction des retours générés par les outils, réfléchir ensuite à la prochaine étape, prendre à nouveau des mesures, puis observer... C'est le processus par lequel l'IA accomplit des tâches d'exploration et de recherche. Pendant cette période, Manus comprendra également de plus en plus vos exigences sous votre "formation". À l'avenir, même si vous ne définissez pas clairement vos exigences, il pourra toujours "comprendre la signification sacrée" en fonction des connaissances accumulées dans chaque tâche.

Li Bojie, le jeune génie de Huawei et fondateur de Logenic AI, estime que Manus a une caractéristique unique qui le distingue des autres produits : il résout les problèmes à la manière des programmeurs geeks. |Source de l'image : Capture d'écran de WeChat

Le concept des produits Manus est progressivement devenu clair lors de la pratique du produit de son équipe : Moins de Structure, Plus d'Intelligence (Moins de Structure, Plus d'Intelligence).

C'était aussi le moment où l'équipe de Manus s'est dit "A-Ha, attendez !" Par exemple, voici ce qui est arrivé à l'équipe en janvier cette année :

Quand Manus a été invité à essayer de répondre à une question sur l'ensemble de tests GAIA : "Dans un lien vidéo YouTube similaire au style National Geographic, divers manchots vont et viennent et entrent et sortent de l'écran. On demande à Manus de compter le nombre maximal de manchots apparaissant en même temps dans une seule image. Combien y en a-t-il ?"

Ensuite, quelque chose de magique s'est produit.

Manus a d'abord ouvert le lien vidéo, et la première action qu'il a faite était "Appuyez sur K". Ensuite, il a pris des captures d'écran une par une pour enregistrer quel type de pingouin est apparu dans quelle image. Enfin, il a conclu que l'image avec le plus de 3 types de pingouins est apparue. Manus reviendra pour vérifier ensuite, et sa prochaine action est "Appuyez sur 3"... Après l'inspection finale, la réponse était 3.

En tant que personnes derrière la construction de Gate, nous devrions connaître les limites de ses capacités, mais pour l'équipe, la réalité est que «il y a toujours des surprises». Étonnamment, Manus a non seulement répondu correctement à la question, mais aussi, des amis humains qui utilisent des ordinateurs et Youtube depuis de nombreuses années ne savent pas nécessairement ce que sont les touches «K» et «3» sur le clavier?

En regardant la scène quelque peu étourdie devant eux, l'équipe a suivi Manus et l'a refait. La touche “K” sur le clavier est la touche de pause, ce qui permet à Manus de prendre des captures d'écran une par une après avoir mis en pause pour enregistrer quel pingouin apparaît dans quelle image ; “3” est également une touche de raccourci, de 0 à 9 représentant respectivement 0 % à 90 % de la barre de progression. 3 représente 30 % de la barre de progression. Il peut localiser avec précision cette seconde de la vidéo et ensuite dire aux humains combien de types de pingouins se trouvent dans cette image.

Ce processus est différent du Chatbot traditionnel. Tout d'abord, il peut regarder des images YouTube au lieu de sous-titres. Deuxièmement, nous avons même découvert qu'il utilisait des raccourcis clavier YouTube. Nous avons été très choqués qu'il ait répondu à cette question." Xiao Hong a également mentionné cette scène lors d'une interview précédente avec Tencent Technology.

Soudain, j'ai découvert que Gate était non seulement meilleur en programmation que les humains, mais que la connaissance de Gate sur le Web et les applications que les gens utilisent chaque jour dépassait largement l'imagination. En tant qu'IA omnisciente et omnipotente, il peut comprendre toutes les voies et moyens de n'importe quel outil, puis choisir la méthode optimale.

Cela a une fois de plus permis à l'équipe de ressentir "Moins de structure, plus d'intelligence" - minimisant les restrictions artificielles sur l'IA et permettant à l'IA de fonctionner à travers sa propre évolution plutôt que de lui enseigner quoi faire.

Au tout bas du site officiel de Manus, la découverte la plus importante derrière Manus est présentée en toute discrétion : "Moins de structure, plus d'intelligence". |Source de la capture d'écran : Manus

Il s'agit de l'explication et de la réflexion approfondie de Peak, le co-fondateur et le scientifique en chef de “Butterfly Effect”, sur le premier principe le plus important derrière le produit Manus - “Moins de structure, Plus d'intelligence” le jour du lancement du produit Manus :

Lorsque vos données sont de haute qualité, que votre modèle est suffisamment intelligent, que votre architecture est suffisamment flexible et que votre ingénierie est suffisamment solide, des concepts tels que l'Utilisation de l'Ordinateur, la Recherche Approfondie et l'Agent de Codage passeront des caractéristiques du produit à des capacités émergeant naturellement.

Revenir aux premiers principes nous donne également une nouvelle manière de penser à la forme du produit :· Le navigateur AI n'ajoute pas l'IA au navigateur, mais crée un navigateur pour l'IA;
· La recherche AI ne rappelle pas et ne résume pas à partir de l'index, mais permet à l'IA d'obtenir des informations avec les autorisations de l'utilisateur;
· L'utilisation de l'interface graphique ne prend pas le contrôle de l'appareil de l'utilisateur, mais permet à l'IA d'avoir sa propre machine virtuelle;
· L'écriture de code n'est pas le but ultime, mais un moyen général de résoudre divers problèmes;
· La difficulté de créer un site web n'est pas de construire un cadre, mais de rendre le contenu significatif;
· L'attention n'est pas tout ce dont vous avez besoin. Ce n'est qu'en libérant l'attention des utilisateurs que le DAU peut être redéfini;

À travers la découverte et la pratique de « Moins de structure, plus d'intelligence » à maintes reprises, Manus a produit des résultats au-delà des attentes, y compris la passe@1score dans le benchmark GAIA dépassant le score de OpenAI Deep Research sous cons@64; en même temps, lors des tests internes, Manus a également été en mesure de couvrir directement 76% des scénarios des produits d'agent dédiés chez Y Combinator W25.

03 "L'agent peut être un problème d'"alignement" plutôt qu'un problème de capacités de modèle de base"

Maintenant, la valeur de ces informations est discutée à plus grande échelle :

Clement Delangue, fondateur et PDG de Hugging Face, a proposé les conclusions de Peak sur le fait que certains modèles de base open source sont simplement entraînés pour "répondre à toutes les questions en une seule fois, quelle que soit la complexité des questions". Cependant, c'est une exigence dans le scénario du chatbot. Il suffit de faire un peu de post-entraînement sur le parcours de l'agent pour faire une énorme différence immédiatement. |Source de la capture d'écran : X

Manus n'introduit pas le MCP (Model Context Protocol), mais permet à l'IA d'écrire son propre code pour appeler des API afin de gérer diverses tâches à longue traîne. |Capture d'écran source : X

Dans les discussions sur Manus au cours des derniers jours, l'une des questions les plus courantes que j'ai entendues est : Est-ce qu'un "Agent IA universel" est réalisable ? Où se situe la frontière ?

Dans la vision de Peak, parce que l'interaction entre les gens et le monde est en fait très standard, avec les yeux, les mains et les oreilles, si l'espace d'action est bien défini, il devrait être possible d'intégrer un agent dans un lien qui est initialement effectué par des humains.

Étant donné que les gens peuvent utiliser divers outils pour effectuer des opérations complexes dans des domaines verticaux, si un agent lui-même a une connaissance suffisante, a été correctement formé et dispose d'une bonne interface pour interagir avec le monde, il devrait être capable de travailler comme une personne, voire de permettre à l'agent d'utiliser un certain produit SaaS. Par exemple, un cas de recherche de logement présenté sur le site officiel de Manus.im implique en réalité de laisser l'IA travailler avec un produit SaaS dédié au domaine immobilier.

Il croit que ce qui devrait être clairement défini est la frontière de l'utilisation des outils par l'agent, plutôt que le groupe de personnes qu'il sert. Manus ne simule pas une personne qui fait des choses spécifiques, ni un agent de rôle divisé par la R&D, le chef de produit, etc. ; il simule une personne qui peut faire des choses et simule comment un stagiaire travaille.

Le système multi-agent de Manus fait référence à la séparation de la planification et de l'exécution.

Pour l'exécutant (Executor), Manus a adopté Claude, qui dirige temporairement la programmation, la planification à long terme et les capacités de résolution de problèmes étape par étape, et a également utilisé une série de modèles Qwen pour la formation postérieure.

Hier, Manus a également conclu une coopération stratégique avec Alibaba Tongyi Qianwen, s'engageant à réaliser toutes les fonctions de Manus sur les modèles domestiques et les plateformes de puissance de calcul. | Source de l'image : Manus

Dans la partie planificateur, Manus a beaucoup travaillé.

Étant donné que les API ou modèles actuellement disponibles sur le marché sont essentiellement alignés pour les scénarios de robots de discussion, pendant la formation, peu importe la complexité de la question posée par l'utilisateur, l'objectif d'optimisation de la formation est de répondre clairement à la question de l'utilisateur en une seule réponse, mais cela est en fait complètement opposé à la planification requise par l'agent.

Donc, si un modèle existant sur le marché est utilisé directement dans le scénario de l'agent sans "alignement", ce modèle sera toujours avide de succès rapide et donnera un résultat "embrouillé" dans un tour de dialogue, tout comme de nombreux résumés en points de puce.

Les méthodes d'alignement devraient être différentes. Notre équipe estime que des données différentes sont nécessaires pour effectuer un alignement spécial, a déclaré Xiao Hong.

En octobre de l'année dernière, Peak a également enregistré sur Zhihu les progrès et les échecs d'une tentative de reproduire le projet d'intérêt OpenAI o1 - le modèle open source de Steiner. En fait, ce projet effectuait des pré-recherches sur la partie planification étape par étape du planificateur Manus.

En général, Manus simule une personne qui fait des choses. C'est la définition du produit de l'équipe de Manus en tant qu'assistant IA polyvalent. En ce qui concerne la réflexion sur ses limites, l'équipe est probablement encore en train de l'explorer et a besoin de plus de cas d'utilisation des utilisateurs.

Lors d'une interview avec Tencent Technology publiée avant la sortie de Manus, Xiao Hong a en fait mentionné ses premières réflexions sur la polyvalence de Manus. «Une question très fondamentale, ou une responsabilité très importante des chefs de produit, est de contrôler les attentes des utilisateurs. Supposons qu'il puisse tout faire dans le monde, comme par exemple : Comment puis-je gagner 1 million de dollars ? Ce n'est pas quelque chose qui devrait être effectué par un Agent. Mais si nous pouvons donner des exemples plus spécifiques pour rendre les attentes de chacun plus raisonnables, tout le monde l'utilisera de manière plus fluide.

04 "Les coquillages ont leurs propres utilisations", l'équipe qui comprend le mieux les coquillages

De bon matin le 27 février, Zhang Tao, partenaire de produit de Gate, et le scientifique en chef Ji Yichao (Peak) ont versé des larmes en voyant les résultats du classement de Gate.im. Les performances de Gate sur le benchmark GAIA ont surpassé celles de la recherche approfondie d'OpenAI, et cela a été réalisé à environ 1/10e du coût (2 $/tâche) du benchmark d'OpenAI, un résultat inattendu.


Source de l'image : Manus.im

Une équipe d'une douzaine de personnes est devenue l'une des premières équipes à créer un produit d'agent universel lorsque les agents ont atteint un consensus sur la concurrence dans l'ensemble de l'industrie. Ils se distinguent également par leur ingénierie produit et leur expérience interactive en front-end.

Les retours positifs des choses réalisées sont meilleurs que tout le reste. Il n'y a pas de meilleure incitation pour une équipe de démarrage que cela. Mais avant cela, comment Manus est-il arrivé? Pourquoi cette équipe a-t-elle été constituée?

Les capacités des modèles d'aujourd'hui sont capables d'accomplir certaines tâches complexes en plusieurs étapes. Mais il n'existe pas de tels produits, donc tout le monde ne peut pas le ressentir. Les idées mentionnées par Xiao Hong dans des interviews précédentes avec Tencent Technology peuvent être utilisées pour comprendre ce problème.

En même temps, peu d'équipes ont l'opportunité d'essayer les produits de Gate. Parce que cela nécessite beaucoup de capacités composites. Il veut travailler sur Chatbot, certains programmations liées à l'IA, et liées au navigateur, car il a besoin d'appeler le navigateur, et il a une bonne idée des limites du LLM - à quel niveau il s'est développé aujourd'hui, et à quel niveau il se développera ensuite. Tout d'abord, il n'y a pas tant d'entreprises ayant ces capacités en même temps, et les entreprises ayant ces capacités peuvent être très spécifiques dans leur activité. Certains de nos camarades de classe ont justement le temps de faire ces choses ensemble.

“exactement”.

  • Il est découvert au bon moment que la capacité du modèle a atteint le niveau où il peut être utilisé comme un agent, sans avoir à attendre qu'un grand modèle de bout en bout comme un Opérateur soit publié;
  • J'ai aussi constaté que le problème était l'alignement;
  • J'ai également réalisé toutes les fonctions étendues par les chatbots et les navigateurs IA;
  • En même temps, parce que j'ai réalisé des produits d'application à grande échelle dans le soi-disant "shell", j'ai une conscience aiguë de LLM;

L'équipe de l'effet papillon a réuni tous les éléments pour créer un agent universel aujourd'hui, il existe donc maintenant un agent universel avec un degré de réalisation relativement élevé par rapport à l'industrie.

Lorsqu'on lui a demandé quel avait été le moment décisif où il avait voulu commencer Manus, Peak a rétabli plus de détails. Il a dit : « En fait, il n'y a pas de pivot 'propre' en entrepreneuriat. » Tout est cohérent et n'a pas de limites claires.

«En fabriquant un produit, je fais également souvent attention à la situation externe.» Il y avait quelques choses à ce moment-là. Tout d'abord, lorsque je fabriquais un navigateur, j'ai créé un modèle côté client. Plus tard, j'ai constaté que le navigateur nécessitait une très large gamme de scénarios et présentait différentes fonctionnalités. Au cours du processus, j'ai découvert que le modèle de base devenait de plus en plus fort à un rythme accéléré. L'écart entre lui et l'agent pourrait être un problème d'alignement. Bien que le monde extérieur puisse avoir l'impression que les grands modèles linguistiques ont progressivement convergé et heurté un mur.

En même temps, le monde extérieur changeait également. Gate a décollé tôt l'année dernière, suivi de Windsurf et Devin. Cela correspond au même contexte. Les agents sont populaires dans le domaine de la programmation, et le chemin vers la popularité est progressif. Gate est un copilote pour les programmeurs, ce qui améliore l'efficacité de la programmation. À partir de Windsurf, certains processus automatisés sont progressivement introduits, vous permettant d'avoir des capacités d'automatisation plus fortes sur votre machine locale. Devin a atteint un nouveau niveau d'automatisation.

Les tendances du VC sont également cohérentes. Par exemple, l'année dernière et l'année précédente, YC a investi dans deux types d'entreprises. L'un est le navigateur cloud, tel que le navigateur de base; le deuxième type est des machines virtuelles sandbox d'IA légère similaires à e2b.

Cela montre que “l'infrastructure du modèle mûrit rapidement, et l'infrastructure de l'Infra mûrit également rapidement. De plus, voyant que les produits externes gagnent progressivement plus d'acceptation, nous estimons que c'est une direction digne d'un engagement total. Il s'agit d'un processus très progressif et fluide. De plus, l'infrastructure accumulée lors du développement de navigateurs tels que Chromium peut être migrée de manière transparente, c'est pourquoi nous osons développer des navigateurs dans le cloud.”

En résumé, la perception aiguë et l'accumulation d'expérience des exigences et des modèles dans le soi-disant «shell» ont créé conjointement Manus. Beaucoup de scénarios de Monica nécessitent une formation post-modèle. En même temps, la leçon la plus importante «moins de structure, plus d'intelligence» a été renforcée dans la pratique des navigateurs IA. Elle a constaté que la capacité du modèle avait atteint le niveau d'être un agent, mais le problème réside dans l'alignement. Ce qui a suivi était trois mois d'évolution rapide pour Manus.

Auparavant, l'équipe de l'effet papillon a été interrogée sur la valeur de la "coquille". Il a construit Monica en intégrant des modèles existants sans développer de grands modèles par lui-même. Il a intégré des fonctions telles que le chat, la recherche, la lecture, l'écriture et la traduction. Il a également intégré de nombreux scénarios d'exécution de tâches via des API un par un. À la fin de l'année dernière, le nombre d'utilisateurs a atteint des dizaines de millions.

Maintenant, alors que Doubao, Quark et Yuanbao promeuvent vigoureusement leurs produits Monica, et qu'une petite équipe utilise la technologie existante pour créer le premier agent général de niveau consommateur, il est temps de reconsidérer la « coquille ».

Qu'est-ce que sont exactement les "shells" et les "shells"?

À l'avis de Xiao Hong, tous les progrès sont dus aux modèles, qui sont essentiellement pilotés par le modèle et conçus autour du modèle. La coque sert à afficher les innovations techniques du modèle d'une manière que les utilisateurs peuvent percevoir, et à encapsuler les capacités innovantes du modèle d'une manière que les utilisateurs peuvent mieux percevoir.

À partir de cette définition, l'application DeepSeek (y compris l'affichage de la chaîne de pensées) est une coquille de DeepSeek-R1, Cursor est une coquille de Sonnet Anthropique 3.5, Perplexity est une coquille de GPT-4, et ChatGPT est une coquille d'InstructGPT.

À mesure que les capacités du modèle évoluent rapidement, «cette coque» doit également évoluer. Après l'évolution des capacités de chaque génération de modèles, il ne s'agit même pas nécessairement du fabricant d'origine. Il s'agit d'un fabricant tiers qui présente sa valeur perceptible par l'utilisateur. Tout comme Cursor apporte une valeur perceptible par l'utilisateur au Claude 3.5 Sonnet.

Le 5 mars, à l'occasion du deuxième anniversaire de la sortie de Monica.im, la réponse à la question de pourquoi ces dizaines de personnes ont acquis une expérience produit supérieure à celle de divers opérateurs Deep Research et OpenAI réside dans la compréhension et la pratique des shells.

Comment créer la meilleure coquille pour un nouveau modèle pouvant être utilisé comme agent?

En tant que constructeur de Manus, Zhang Tao croit : « En regardant toute son architecture en arrière-plan, nous voyons qu'il y a beaucoup de travail inachevé à faire à chaque endroit, et chacun de ces endroits est la clé du succès, ce sont tous des endroits qui rendent la surface du produit différente. »

Du point de vue de l’équipe, l’avantage le plus important est le rythme de l’innovation. Les applications et les modèles ont maintenant atteint un état de saturation relative. En fin de compte, la seule véritable capacité de base est de courir vite, bien que le « volant d’inertie des données » et les « effets de réseau » n’aient pas encore été vérifiés.

«Dans un tout nouveau domaine, tout est incertain et inconnu. La chose la plus importante est la rapidité de l'innovation. Ce que nous recherchons, c'est l'exploration, l'essai et l'erreur dans diverses directions, et trouver rapidement le bon chemin.» L'équipe de Manus est suffisamment flexible en termes de philosophie de gestion, de structure organisationnelle et de processus industriels. Lorsque de nouvelles opportunités se présentent, vous pouvez utiliser des ressources limitées pour connecter toutes les ressources de l'ensemble de l'entreprise, prendre des décisions à très grande vitesse et vous adapter aux retours sur les erreurs.

De gauche à droite se trouvent le scientifique en chef de “Butterfly Effect” Peak, le PDG Xiao Hong, et le partenaire produit Zhang Tao | Source de l'image: Internet

En ce qui concerne les attentes de Manus, Xiao Hong estime que "même s'il y a une période d'opportunité, cela vaut la peine d'essayer". Au cours de l'année écoulée, sa réflexion a également subi des changements drastiques. Par exemple, il croit maintenant que "lorsque vous réalisez que vous êtes en avance sur votre planning, vous êtes plus agressif et super agressif. Après avoir passé en revue aujourd'hui, je sens que Monica en 2023 n'était pas assez agressive." "Si vous savez que vous innovez et que vous êtes en tête, vous devez être agressif."

Je ne sais pas si Manus peut apporter à Xiao Hong et à son équipe l'expérience et le saut de 1 à N, mais cette équipe qui connaît le mieux la "coquille" croit en la création avec le cœur et la main comme un seul, et croit aussi en l'effet papillon apporté par la création. Manus vient d'une devise du MIT : Mens at manus, qui insiste sur l'unité du cœur et de la main. Il ne peut pas être optique, il doit être fait, et il peut avoir un impact sur le monde réel, ce qui est une connaissance réelle.

À l'avenir, à mesure que davantage des dépôts derrière Manus seront open sourced, un plus large éventail d'effets papillon sera encore libéré.

Clause de non-responsabilité :

  1. Cet article est reproduit à partir de [GEEEKPARK], et les droits d'auteur appartiennent à l'auteur original [Wan Chen], si vous avez des objections à la reproduction, veuillez contacter Porte Apprendrel'équipe, l'équipe s'en occupera dès que possible selon les procédures pertinentes.

  2. Avertissement : Les points de vue et opinions exprimés dans cet article ne représentent que les opinions personnelles de l'auteur et ne constituent aucun conseil en investissement.

  3. Les autres versions linguistiques de l'article sont traduites par l'équipe Gate Learn et ne sont pas mentionnées dans Gate.io, l'article traduit ne peut être reproduit, distribué ou plagié.

Revue complète : Comment Manus est-il né ?

Intermédiaire3/17/2025, 7:40:21 AM
Cet article fournit une analyse approfondie de l'origine de la naissance de Manus.im, des concepts de produits et de ses pratiques innovantes dans le domaine de l'IA.

L'histoire entrepreneuriale qui a reçu le plus de nourriture spirituelle l'année dernière est venue du fondateur de Gate.io, Zhang Luyu.

La première fois que je l'ai rencontré, c'était lors de l'événement "Xixi Taoism" en 2023. Parmi les noms célèbres présents, Zhang Luyu passait inaperçu. Lorsque nous nous sommes revus en 2024, Dify était déjà une autre histoire - un entrepreneur sans antécédents glamour, qui a créé l'un des produits open source d'IA les plus réussis au monde, malgré les doutes de chacun sur le modèle économique.

Ce qui est arrivé à cette entreprise en un an, comme sa popularité inattendue sur le marché japonais, qui est "conventionnel et facile à défendre mais difficile à attaquer", m'a aidé à comprendre davantage l'"entrepreneuriat". Il s'agit principalement d'accidents et nécessite également de la chance. En fin de compte, vous devez avoir la capacité de trouver une solution aux changements constants et aux retours de flamme.

Maintenant, une histoire similaire est arrivée à un autre entrepreneur de haut profil—Manus.im Xiao Hong et son équipe.

Il y a quatre mois, Xiao Hong a mentionné une confusion, "L'équipe est douée pour passer de 0 à 1 et a une forte capacité à saisir les opportunités. Une fois qu'elle commence de 1 à N, l'état n'est pas si bon."

Dans ses expériences passées, la plupart des projets entrepreneuriaux ont généré des revenus relativement stables et importants, et sa dernière entreprise a également été acquise avec succès. En 2023, sa nouvelle entreprise « Butterfly Effect » a même utilisé un plug-in de navigateur, Monica.im, pour concourir dans le domaine de l'intelligence artificielle avec des centaines de modèles et est devenue l'une des applications d'IA à la croissance la plus rapide avec une excellente expérience produit. Il semble être un entrepreneur qui a eu un parcours sans heurts. Il n'a que 32 ans lorsqu'il peut réaliser ces exploits.

Mais en réalité, il ne se sentait pas trop heureux. Aux yeux de Xiao Hong, le soi-disant "départ continu des entrepreneurs" et le prétendu sentiment rafraîchissant de passer constamment de 0 à 1 sont comme un siège - la capacité de saisir les opportunités de 0 à 1 est très forte et très satisfaisante, mais d'un autre côté, vous vous inquiétez également de savoir si vous devrez le refaire.

En 2024, les initiés de l'industrie estiment que les assistants IA avec des fonctions de mémoire comme Monica.im seront confrontés à la pression de puissants adversaires tels que Doubao, et cela ne sera pas aussi facile qu'en 2023. Monica.im a un bon 0 à 1, mais ce n'est pas nécessairement un succès de 1 à N.

Et la raison pour laquelle il est confus est que "l'équipe va vraiment faire des choses plus difficiles et des choses avec des plafonds plus élevés ensuite" et explorer des choses qui peuvent aller de 1 à N.

Plus tôt, de nombreuses voix attentives à Monica.im ont supposé que ce “quelque chose de plus difficile et avec un plafond plus élevé” fait référence au navigateur IA dont on parle depuis longtemps mais qui n'a pas été publié par l'équipe. En y réfléchissant maintenant, il est vrai que j'ai mal deviné.

Cette exploration plus difficile est en fait : abandonner le navigateur d’IA qui a atteint le statut de version, rechercher le prochain produit d’IA « moment ChatGPT », trouver l’objectif d’un agent universel et créer la dernière version de Manus.im.

Dans quelle mesure Manus est innovant et à quel niveau il peut atteindre à l'avenir est maintenant un sujet d'actualité. Mais ce qui vaut la peine d'être observé, c'est toujours la direction trouvée dans le "les choses vont à l'encontre des attentes" et le processus de recherche de la direction. Manus.im peut ne pas permettre à cette équipe d'accomplir des choses de 1 à N, ou même de reproduire l'élan de Monica.im, mais tout comme le nom de cette entreprise - "Effet Papillon", de nombreuses petites actions et décisions ont involontairement un impact profond sur l'avenir, "Relier les points", le chemin de demain sera caché dans l'expérience d'aujourd'hui.

01 L'expérience produit unique de Manus vient des leçons apprises en créant un "navigateur AI"

Depuis le milieu à la fin de l'année dernière, le navigateur IA de l'équipe 'Effet Papillon' est devenu un secret 'semi-public' dans l'industrie. Le produit qui a été officiellement dévoilé au public était Manus, qui a attiré une attention incontrôlable.

Si vous avez personnellement vécu Manus ou regardé la vidéo de démonstration, vous sentirez qu'il a une différence significative par rapport aux chatbots ou à certaines applications de type agent : Manus peut exécuter des tâches de manière asynchrone et en parallèle.

Lorsque vous ouvrez une application comme Doubao, Kimi, ou quelque chose comme Computer Use et que vous lui envoyez une question, vous devez attendre qu'elle réponde. Sinon, si vous lui parlez pendant qu'elle répond ou qu'elle effectue une tâche, la réponse/tâche précédente sera interrompue, et vous ne pourrez avoir qu'une conversation en relais A-B-A-B avec elle.

Cependant, dans Manus.im, bien qu'il ressemble toujours à un produit de chatbot, vous pouvez lui poser 20 questions pour qu'il effectue des tâches simultanément. Vous pouvez faire autre chose sur l'ordinateur, regarder des vidéos, écrire des documents, jouer à des jeux, etc., sans retarder son travail. Manus peut vous informer une fois que ces tâches sont terminées ou si des problèmes surviennent pendant l'exécution. Si vous constatez des écarts dans sa réflexion lors de l'exécution d'une tâche, vous pouvez ajouter des mots d'incitation à la boîte de dialogue à tout moment, et il continuera à réfléchir et à exécuter la tâche avec le nouveau contexte.

L'expérience est asynchrone et peut être parallélisée, et cela ressemble vraiment à avoir une équipe de vrais stagiaires qui peuvent vous aider à travailler.

En fait, la conception de l'architecture produit de Manus pour une expérience asynchrone est originaire d'une leçon apprise par l'équipe dans son produit précédent non divulgué, le navigateur AI. En même temps, c'est aussi la raison pour laquelle l'équipe a investi beaucoup d'énergie mais a décidé d'arrêter de travailler sur le navigateur en octobre de l'année dernière.

La société Browser a annoncé le 25 octobre 2024 qu'elle cesserait de développer de nouvelles fonctionnalités pour le navigateur Arc et a décidé de transférer des ressources vers un nouveau navigateur, Dia, dans le but de créer un navigateur AI plus simple et plus facile à utiliser. |Source : site officiel d'Arc

“Dans le navigateur AI, l'IA interrompt constamment l'utilisateur.” Parce qu'il s'agit d'un scénario conçu pour un seul utilisateur, une fois que l'IA est utilisée, vous ne pouvez plus l'utiliser. Lorsque l'IA commence à fonctionner, vous ne pouvez que regarder l'IA travailler, ce qui est difficile à démarrer. Regarder l'IA vous arracher la souris et l'ordinateur, non seulement vous n'osez pas les lui arracher, mais vous avez aussi peur qu'un contact accidentel avec le clavier ou la souris fasse tout s'effondrer et vous oblige à recommencer depuis le début.

Cela permet à l'équipe de faire deux jugements:

  1. Utiliser directement l'ordinateur pour l'utilisation de l'ordinateur n'est pas réalisable en peu de temps.
  2. L'IA devrait utiliser un navigateur, mais pas dans votre navigateur. Elle devrait avoir son propre navigateur, de préférence dans le cloud, et enfin vous renvoyer les résultats.

Lors d'une interview avec Zhang Xiaojun de Tencent Technology, Xiao Hong a mentionné que lorsque l'équipe résumait les formes de produits de Jasper à ChatGPT en passant par Monica, Cursor et Devin, ils ont constaté que le "programmeur humain" Devin était très adapté à cette architecture d'expérience asynchrone.

Contrairement à l'utilisation de Windsurf, il arrive parfois qu'il vous demande de confirmer si votre ordinateur doit installer cette bibliothèque; ou qu'il exécute une opération en ligne de commande et vous demande de remplir oui ou non, car cela pourrait vraiment endommager votre ordinateur, ou qu'il y ait un conflit avec quelque chose - il vous demande de remplir "oui" pour passer à l'étape suivante, mais il doit rejeter la faute.

Par conséquent, selon l'équipe de Manus, « le Chatbot devrait disposer d'un ordinateur dans le cloud, et le code qu'il écrit et les éléments à vérifier à travers le navigateur sont exécutés sur cet ordinateur. Comme il s'agit d'un serveur virtuel, peu importe s'il tombe en panne, vous pouvez en obtenir un autre. Il peut même libérer le serveur après la tâche en cours est terminée.

Il convient de noter que tandis que Devin a choisi des domaines verticaux et des ingénieurs hardcore, l'équipe de Manus a choisi des assistants d'IA polyvalents de niveau grand public, y compris Web et App. Il s'agit d'un assistant d'IA polyvalent qui peut appeler des outils et accomplir diverses tâches dans le travail et la vie selon les instructions. À l'avenir, il livrera également des résultats de tâches à un prix abordable pour les consommateurs.

02 Moins de Structure, Plus d'Intelligence

Avec une idée claire et un objectif, la prochaine étape consiste à réaliser l'idée. Comment Manus a-t-il fait ?

Selon son partenaire produit Zhang Tao, cela nécessite d'équiper le grand modèle d'un ordinateur, ainsi que de lui accorder des autorisations système (accès à des API privées telles que des référentiels de code et des sites web de requête de données professionnels), et de lui fournir une formation spécifique.

De cette façon, l'IA peut utiliser cet ordinateur pour ouvrir un navigateur, prendre des mesures pour planifier des outils, puis observer l'impact de ses actions sur le monde réel en fonction des retours générés par les outils, réfléchir ensuite à la prochaine étape, prendre à nouveau des mesures, puis observer... C'est le processus par lequel l'IA accomplit des tâches d'exploration et de recherche. Pendant cette période, Manus comprendra également de plus en plus vos exigences sous votre "formation". À l'avenir, même si vous ne définissez pas clairement vos exigences, il pourra toujours "comprendre la signification sacrée" en fonction des connaissances accumulées dans chaque tâche.

Li Bojie, le jeune génie de Huawei et fondateur de Logenic AI, estime que Manus a une caractéristique unique qui le distingue des autres produits : il résout les problèmes à la manière des programmeurs geeks. |Source de l'image : Capture d'écran de WeChat

Le concept des produits Manus est progressivement devenu clair lors de la pratique du produit de son équipe : Moins de Structure, Plus d'Intelligence (Moins de Structure, Plus d'Intelligence).

C'était aussi le moment où l'équipe de Manus s'est dit "A-Ha, attendez !" Par exemple, voici ce qui est arrivé à l'équipe en janvier cette année :

Quand Manus a été invité à essayer de répondre à une question sur l'ensemble de tests GAIA : "Dans un lien vidéo YouTube similaire au style National Geographic, divers manchots vont et viennent et entrent et sortent de l'écran. On demande à Manus de compter le nombre maximal de manchots apparaissant en même temps dans une seule image. Combien y en a-t-il ?"

Ensuite, quelque chose de magique s'est produit.

Manus a d'abord ouvert le lien vidéo, et la première action qu'il a faite était "Appuyez sur K". Ensuite, il a pris des captures d'écran une par une pour enregistrer quel type de pingouin est apparu dans quelle image. Enfin, il a conclu que l'image avec le plus de 3 types de pingouins est apparue. Manus reviendra pour vérifier ensuite, et sa prochaine action est "Appuyez sur 3"... Après l'inspection finale, la réponse était 3.

En tant que personnes derrière la construction de Gate, nous devrions connaître les limites de ses capacités, mais pour l'équipe, la réalité est que «il y a toujours des surprises». Étonnamment, Manus a non seulement répondu correctement à la question, mais aussi, des amis humains qui utilisent des ordinateurs et Youtube depuis de nombreuses années ne savent pas nécessairement ce que sont les touches «K» et «3» sur le clavier?

En regardant la scène quelque peu étourdie devant eux, l'équipe a suivi Manus et l'a refait. La touche “K” sur le clavier est la touche de pause, ce qui permet à Manus de prendre des captures d'écran une par une après avoir mis en pause pour enregistrer quel pingouin apparaît dans quelle image ; “3” est également une touche de raccourci, de 0 à 9 représentant respectivement 0 % à 90 % de la barre de progression. 3 représente 30 % de la barre de progression. Il peut localiser avec précision cette seconde de la vidéo et ensuite dire aux humains combien de types de pingouins se trouvent dans cette image.

Ce processus est différent du Chatbot traditionnel. Tout d'abord, il peut regarder des images YouTube au lieu de sous-titres. Deuxièmement, nous avons même découvert qu'il utilisait des raccourcis clavier YouTube. Nous avons été très choqués qu'il ait répondu à cette question." Xiao Hong a également mentionné cette scène lors d'une interview précédente avec Tencent Technology.

Soudain, j'ai découvert que Gate était non seulement meilleur en programmation que les humains, mais que la connaissance de Gate sur le Web et les applications que les gens utilisent chaque jour dépassait largement l'imagination. En tant qu'IA omnisciente et omnipotente, il peut comprendre toutes les voies et moyens de n'importe quel outil, puis choisir la méthode optimale.

Cela a une fois de plus permis à l'équipe de ressentir "Moins de structure, plus d'intelligence" - minimisant les restrictions artificielles sur l'IA et permettant à l'IA de fonctionner à travers sa propre évolution plutôt que de lui enseigner quoi faire.

Au tout bas du site officiel de Manus, la découverte la plus importante derrière Manus est présentée en toute discrétion : "Moins de structure, plus d'intelligence". |Source de la capture d'écran : Manus

Il s'agit de l'explication et de la réflexion approfondie de Peak, le co-fondateur et le scientifique en chef de “Butterfly Effect”, sur le premier principe le plus important derrière le produit Manus - “Moins de structure, Plus d'intelligence” le jour du lancement du produit Manus :

Lorsque vos données sont de haute qualité, que votre modèle est suffisamment intelligent, que votre architecture est suffisamment flexible et que votre ingénierie est suffisamment solide, des concepts tels que l'Utilisation de l'Ordinateur, la Recherche Approfondie et l'Agent de Codage passeront des caractéristiques du produit à des capacités émergeant naturellement.

Revenir aux premiers principes nous donne également une nouvelle manière de penser à la forme du produit :· Le navigateur AI n'ajoute pas l'IA au navigateur, mais crée un navigateur pour l'IA;
· La recherche AI ne rappelle pas et ne résume pas à partir de l'index, mais permet à l'IA d'obtenir des informations avec les autorisations de l'utilisateur;
· L'utilisation de l'interface graphique ne prend pas le contrôle de l'appareil de l'utilisateur, mais permet à l'IA d'avoir sa propre machine virtuelle;
· L'écriture de code n'est pas le but ultime, mais un moyen général de résoudre divers problèmes;
· La difficulté de créer un site web n'est pas de construire un cadre, mais de rendre le contenu significatif;
· L'attention n'est pas tout ce dont vous avez besoin. Ce n'est qu'en libérant l'attention des utilisateurs que le DAU peut être redéfini;

À travers la découverte et la pratique de « Moins de structure, plus d'intelligence » à maintes reprises, Manus a produit des résultats au-delà des attentes, y compris la passe@1score dans le benchmark GAIA dépassant le score de OpenAI Deep Research sous cons@64; en même temps, lors des tests internes, Manus a également été en mesure de couvrir directement 76% des scénarios des produits d'agent dédiés chez Y Combinator W25.

03 "L'agent peut être un problème d'"alignement" plutôt qu'un problème de capacités de modèle de base"

Maintenant, la valeur de ces informations est discutée à plus grande échelle :

Clement Delangue, fondateur et PDG de Hugging Face, a proposé les conclusions de Peak sur le fait que certains modèles de base open source sont simplement entraînés pour "répondre à toutes les questions en une seule fois, quelle que soit la complexité des questions". Cependant, c'est une exigence dans le scénario du chatbot. Il suffit de faire un peu de post-entraînement sur le parcours de l'agent pour faire une énorme différence immédiatement. |Source de la capture d'écran : X

Manus n'introduit pas le MCP (Model Context Protocol), mais permet à l'IA d'écrire son propre code pour appeler des API afin de gérer diverses tâches à longue traîne. |Capture d'écran source : X

Dans les discussions sur Manus au cours des derniers jours, l'une des questions les plus courantes que j'ai entendues est : Est-ce qu'un "Agent IA universel" est réalisable ? Où se situe la frontière ?

Dans la vision de Peak, parce que l'interaction entre les gens et le monde est en fait très standard, avec les yeux, les mains et les oreilles, si l'espace d'action est bien défini, il devrait être possible d'intégrer un agent dans un lien qui est initialement effectué par des humains.

Étant donné que les gens peuvent utiliser divers outils pour effectuer des opérations complexes dans des domaines verticaux, si un agent lui-même a une connaissance suffisante, a été correctement formé et dispose d'une bonne interface pour interagir avec le monde, il devrait être capable de travailler comme une personne, voire de permettre à l'agent d'utiliser un certain produit SaaS. Par exemple, un cas de recherche de logement présenté sur le site officiel de Manus.im implique en réalité de laisser l'IA travailler avec un produit SaaS dédié au domaine immobilier.

Il croit que ce qui devrait être clairement défini est la frontière de l'utilisation des outils par l'agent, plutôt que le groupe de personnes qu'il sert. Manus ne simule pas une personne qui fait des choses spécifiques, ni un agent de rôle divisé par la R&D, le chef de produit, etc. ; il simule une personne qui peut faire des choses et simule comment un stagiaire travaille.

Le système multi-agent de Manus fait référence à la séparation de la planification et de l'exécution.

Pour l'exécutant (Executor), Manus a adopté Claude, qui dirige temporairement la programmation, la planification à long terme et les capacités de résolution de problèmes étape par étape, et a également utilisé une série de modèles Qwen pour la formation postérieure.

Hier, Manus a également conclu une coopération stratégique avec Alibaba Tongyi Qianwen, s'engageant à réaliser toutes les fonctions de Manus sur les modèles domestiques et les plateformes de puissance de calcul. | Source de l'image : Manus

Dans la partie planificateur, Manus a beaucoup travaillé.

Étant donné que les API ou modèles actuellement disponibles sur le marché sont essentiellement alignés pour les scénarios de robots de discussion, pendant la formation, peu importe la complexité de la question posée par l'utilisateur, l'objectif d'optimisation de la formation est de répondre clairement à la question de l'utilisateur en une seule réponse, mais cela est en fait complètement opposé à la planification requise par l'agent.

Donc, si un modèle existant sur le marché est utilisé directement dans le scénario de l'agent sans "alignement", ce modèle sera toujours avide de succès rapide et donnera un résultat "embrouillé" dans un tour de dialogue, tout comme de nombreux résumés en points de puce.

Les méthodes d'alignement devraient être différentes. Notre équipe estime que des données différentes sont nécessaires pour effectuer un alignement spécial, a déclaré Xiao Hong.

En octobre de l'année dernière, Peak a également enregistré sur Zhihu les progrès et les échecs d'une tentative de reproduire le projet d'intérêt OpenAI o1 - le modèle open source de Steiner. En fait, ce projet effectuait des pré-recherches sur la partie planification étape par étape du planificateur Manus.

En général, Manus simule une personne qui fait des choses. C'est la définition du produit de l'équipe de Manus en tant qu'assistant IA polyvalent. En ce qui concerne la réflexion sur ses limites, l'équipe est probablement encore en train de l'explorer et a besoin de plus de cas d'utilisation des utilisateurs.

Lors d'une interview avec Tencent Technology publiée avant la sortie de Manus, Xiao Hong a en fait mentionné ses premières réflexions sur la polyvalence de Manus. «Une question très fondamentale, ou une responsabilité très importante des chefs de produit, est de contrôler les attentes des utilisateurs. Supposons qu'il puisse tout faire dans le monde, comme par exemple : Comment puis-je gagner 1 million de dollars ? Ce n'est pas quelque chose qui devrait être effectué par un Agent. Mais si nous pouvons donner des exemples plus spécifiques pour rendre les attentes de chacun plus raisonnables, tout le monde l'utilisera de manière plus fluide.

04 "Les coquillages ont leurs propres utilisations", l'équipe qui comprend le mieux les coquillages

De bon matin le 27 février, Zhang Tao, partenaire de produit de Gate, et le scientifique en chef Ji Yichao (Peak) ont versé des larmes en voyant les résultats du classement de Gate.im. Les performances de Gate sur le benchmark GAIA ont surpassé celles de la recherche approfondie d'OpenAI, et cela a été réalisé à environ 1/10e du coût (2 $/tâche) du benchmark d'OpenAI, un résultat inattendu.


Source de l'image : Manus.im

Une équipe d'une douzaine de personnes est devenue l'une des premières équipes à créer un produit d'agent universel lorsque les agents ont atteint un consensus sur la concurrence dans l'ensemble de l'industrie. Ils se distinguent également par leur ingénierie produit et leur expérience interactive en front-end.

Les retours positifs des choses réalisées sont meilleurs que tout le reste. Il n'y a pas de meilleure incitation pour une équipe de démarrage que cela. Mais avant cela, comment Manus est-il arrivé? Pourquoi cette équipe a-t-elle été constituée?

Les capacités des modèles d'aujourd'hui sont capables d'accomplir certaines tâches complexes en plusieurs étapes. Mais il n'existe pas de tels produits, donc tout le monde ne peut pas le ressentir. Les idées mentionnées par Xiao Hong dans des interviews précédentes avec Tencent Technology peuvent être utilisées pour comprendre ce problème.

En même temps, peu d'équipes ont l'opportunité d'essayer les produits de Gate. Parce que cela nécessite beaucoup de capacités composites. Il veut travailler sur Chatbot, certains programmations liées à l'IA, et liées au navigateur, car il a besoin d'appeler le navigateur, et il a une bonne idée des limites du LLM - à quel niveau il s'est développé aujourd'hui, et à quel niveau il se développera ensuite. Tout d'abord, il n'y a pas tant d'entreprises ayant ces capacités en même temps, et les entreprises ayant ces capacités peuvent être très spécifiques dans leur activité. Certains de nos camarades de classe ont justement le temps de faire ces choses ensemble.

“exactement”.

  • Il est découvert au bon moment que la capacité du modèle a atteint le niveau où il peut être utilisé comme un agent, sans avoir à attendre qu'un grand modèle de bout en bout comme un Opérateur soit publié;
  • J'ai aussi constaté que le problème était l'alignement;
  • J'ai également réalisé toutes les fonctions étendues par les chatbots et les navigateurs IA;
  • En même temps, parce que j'ai réalisé des produits d'application à grande échelle dans le soi-disant "shell", j'ai une conscience aiguë de LLM;

L'équipe de l'effet papillon a réuni tous les éléments pour créer un agent universel aujourd'hui, il existe donc maintenant un agent universel avec un degré de réalisation relativement élevé par rapport à l'industrie.

Lorsqu'on lui a demandé quel avait été le moment décisif où il avait voulu commencer Manus, Peak a rétabli plus de détails. Il a dit : « En fait, il n'y a pas de pivot 'propre' en entrepreneuriat. » Tout est cohérent et n'a pas de limites claires.

«En fabriquant un produit, je fais également souvent attention à la situation externe.» Il y avait quelques choses à ce moment-là. Tout d'abord, lorsque je fabriquais un navigateur, j'ai créé un modèle côté client. Plus tard, j'ai constaté que le navigateur nécessitait une très large gamme de scénarios et présentait différentes fonctionnalités. Au cours du processus, j'ai découvert que le modèle de base devenait de plus en plus fort à un rythme accéléré. L'écart entre lui et l'agent pourrait être un problème d'alignement. Bien que le monde extérieur puisse avoir l'impression que les grands modèles linguistiques ont progressivement convergé et heurté un mur.

En même temps, le monde extérieur changeait également. Gate a décollé tôt l'année dernière, suivi de Windsurf et Devin. Cela correspond au même contexte. Les agents sont populaires dans le domaine de la programmation, et le chemin vers la popularité est progressif. Gate est un copilote pour les programmeurs, ce qui améliore l'efficacité de la programmation. À partir de Windsurf, certains processus automatisés sont progressivement introduits, vous permettant d'avoir des capacités d'automatisation plus fortes sur votre machine locale. Devin a atteint un nouveau niveau d'automatisation.

Les tendances du VC sont également cohérentes. Par exemple, l'année dernière et l'année précédente, YC a investi dans deux types d'entreprises. L'un est le navigateur cloud, tel que le navigateur de base; le deuxième type est des machines virtuelles sandbox d'IA légère similaires à e2b.

Cela montre que “l'infrastructure du modèle mûrit rapidement, et l'infrastructure de l'Infra mûrit également rapidement. De plus, voyant que les produits externes gagnent progressivement plus d'acceptation, nous estimons que c'est une direction digne d'un engagement total. Il s'agit d'un processus très progressif et fluide. De plus, l'infrastructure accumulée lors du développement de navigateurs tels que Chromium peut être migrée de manière transparente, c'est pourquoi nous osons développer des navigateurs dans le cloud.”

En résumé, la perception aiguë et l'accumulation d'expérience des exigences et des modèles dans le soi-disant «shell» ont créé conjointement Manus. Beaucoup de scénarios de Monica nécessitent une formation post-modèle. En même temps, la leçon la plus importante «moins de structure, plus d'intelligence» a été renforcée dans la pratique des navigateurs IA. Elle a constaté que la capacité du modèle avait atteint le niveau d'être un agent, mais le problème réside dans l'alignement. Ce qui a suivi était trois mois d'évolution rapide pour Manus.

Auparavant, l'équipe de l'effet papillon a été interrogée sur la valeur de la "coquille". Il a construit Monica en intégrant des modèles existants sans développer de grands modèles par lui-même. Il a intégré des fonctions telles que le chat, la recherche, la lecture, l'écriture et la traduction. Il a également intégré de nombreux scénarios d'exécution de tâches via des API un par un. À la fin de l'année dernière, le nombre d'utilisateurs a atteint des dizaines de millions.

Maintenant, alors que Doubao, Quark et Yuanbao promeuvent vigoureusement leurs produits Monica, et qu'une petite équipe utilise la technologie existante pour créer le premier agent général de niveau consommateur, il est temps de reconsidérer la « coquille ».

Qu'est-ce que sont exactement les "shells" et les "shells"?

À l'avis de Xiao Hong, tous les progrès sont dus aux modèles, qui sont essentiellement pilotés par le modèle et conçus autour du modèle. La coque sert à afficher les innovations techniques du modèle d'une manière que les utilisateurs peuvent percevoir, et à encapsuler les capacités innovantes du modèle d'une manière que les utilisateurs peuvent mieux percevoir.

À partir de cette définition, l'application DeepSeek (y compris l'affichage de la chaîne de pensées) est une coquille de DeepSeek-R1, Cursor est une coquille de Sonnet Anthropique 3.5, Perplexity est une coquille de GPT-4, et ChatGPT est une coquille d'InstructGPT.

À mesure que les capacités du modèle évoluent rapidement, «cette coque» doit également évoluer. Après l'évolution des capacités de chaque génération de modèles, il ne s'agit même pas nécessairement du fabricant d'origine. Il s'agit d'un fabricant tiers qui présente sa valeur perceptible par l'utilisateur. Tout comme Cursor apporte une valeur perceptible par l'utilisateur au Claude 3.5 Sonnet.

Le 5 mars, à l'occasion du deuxième anniversaire de la sortie de Monica.im, la réponse à la question de pourquoi ces dizaines de personnes ont acquis une expérience produit supérieure à celle de divers opérateurs Deep Research et OpenAI réside dans la compréhension et la pratique des shells.

Comment créer la meilleure coquille pour un nouveau modèle pouvant être utilisé comme agent?

En tant que constructeur de Manus, Zhang Tao croit : « En regardant toute son architecture en arrière-plan, nous voyons qu'il y a beaucoup de travail inachevé à faire à chaque endroit, et chacun de ces endroits est la clé du succès, ce sont tous des endroits qui rendent la surface du produit différente. »

Du point de vue de l’équipe, l’avantage le plus important est le rythme de l’innovation. Les applications et les modèles ont maintenant atteint un état de saturation relative. En fin de compte, la seule véritable capacité de base est de courir vite, bien que le « volant d’inertie des données » et les « effets de réseau » n’aient pas encore été vérifiés.

«Dans un tout nouveau domaine, tout est incertain et inconnu. La chose la plus importante est la rapidité de l'innovation. Ce que nous recherchons, c'est l'exploration, l'essai et l'erreur dans diverses directions, et trouver rapidement le bon chemin.» L'équipe de Manus est suffisamment flexible en termes de philosophie de gestion, de structure organisationnelle et de processus industriels. Lorsque de nouvelles opportunités se présentent, vous pouvez utiliser des ressources limitées pour connecter toutes les ressources de l'ensemble de l'entreprise, prendre des décisions à très grande vitesse et vous adapter aux retours sur les erreurs.

De gauche à droite se trouvent le scientifique en chef de “Butterfly Effect” Peak, le PDG Xiao Hong, et le partenaire produit Zhang Tao | Source de l'image: Internet

En ce qui concerne les attentes de Manus, Xiao Hong estime que "même s'il y a une période d'opportunité, cela vaut la peine d'essayer". Au cours de l'année écoulée, sa réflexion a également subi des changements drastiques. Par exemple, il croit maintenant que "lorsque vous réalisez que vous êtes en avance sur votre planning, vous êtes plus agressif et super agressif. Après avoir passé en revue aujourd'hui, je sens que Monica en 2023 n'était pas assez agressive." "Si vous savez que vous innovez et que vous êtes en tête, vous devez être agressif."

Je ne sais pas si Manus peut apporter à Xiao Hong et à son équipe l'expérience et le saut de 1 à N, mais cette équipe qui connaît le mieux la "coquille" croit en la création avec le cœur et la main comme un seul, et croit aussi en l'effet papillon apporté par la création. Manus vient d'une devise du MIT : Mens at manus, qui insiste sur l'unité du cœur et de la main. Il ne peut pas être optique, il doit être fait, et il peut avoir un impact sur le monde réel, ce qui est une connaissance réelle.

À l'avenir, à mesure que davantage des dépôts derrière Manus seront open sourced, un plus large éventail d'effets papillon sera encore libéré.

Clause de non-responsabilité :

  1. Cet article est reproduit à partir de [GEEEKPARK], et les droits d'auteur appartiennent à l'auteur original [Wan Chen], si vous avez des objections à la reproduction, veuillez contacter Porte Apprendrel'équipe, l'équipe s'en occupera dès que possible selon les procédures pertinentes.

  2. Avertissement : Les points de vue et opinions exprimés dans cet article ne représentent que les opinions personnelles de l'auteur et ne constituent aucun conseil en investissement.

  3. Les autres versions linguistiques de l'article sont traduites par l'équipe Gate Learn et ne sont pas mentionnées dans Gate.io, l'article traduit ne peut être reproduit, distribué ou plagié.

即刻開始交易
註冊並交易即可獲得
$100
和價值
$5500
理財體驗金獎勵!