Mira Jojova Vicky a réalisé un « projet parfait » avec l’IA ? Test des développeurs : y a-t-il vraiment du contenu, ou est-ce une exagération et une promotion sensationnaliste ?

CryptoCity

Le système de mémoire IA MemPalace, développé par Milla Jovovich avec , affirme avoir obtenu un score parfait lors de ses tests et est rapidement devenu viral, mais la communauté l’a ensuite accusé d’avoir triché pendant les tests et d’avoir induit en erreur avec des données. Des essais en conditions réelles ont montré que les résultats étaient exagérés et qu’il y avait de nombreuses erreurs ; l’équipe a reconnu les défauts et travaille actuellement à les corriger.

Milla Jovovich crée un « palais de mémoire » pour l’IA, suscitant l’attention

Hier (4/7), dans le cercle IA, il y a eu une grande nouvelle : l’actrice hollywoodienne Milla Jovovich (connue pour Resident Evil et Le Cinquième Élément), qui a collaboré avec le développeur Ben Sigman et a utilisé Claude Code pour développer « MemPalace », un système IA de mémoire open source.

À un moment donné, la rumeur selon laquelle « une star hollywoodienne passe au cross-over et livre un projet parfait » s’est largement répandue ; jusqu’à présent, MemPalace a également obtenu plus de 20k étoiles sur GitHub, mais très vite, la communauté des développeurs a commencé à douter : est-ce qu’il y a vraiment quelque chose, ou s’agit-il de pure promotion ?

Expliquons d’abord la motivation derrière la création de MemPalace. D’après la documentation officielle, l’objectif était de résoudre la limitation selon laquelle, dans la plupart des systèmes IA actuels, le contenu des conversations avec l’IA, les processus décisionnels et les discussions sur l’architecture disparaissent généralement après la fin d’une session de travail, ce qui réduit à zéro des mois d’efforts.

Pour résoudre ce problème, MemPalace utilise une architecture spatiale pour stocker les souvenirs : les informations sont classées clairement dans des zones d’ailes représentant des personnes ou des projets, ainsi que dans des structures de différents niveaux comme des couloirs, des pièces et des tiroirs, afin de conserver le texte original des conversations pour une recherche ultérieure par sémantique.

L’équipe de développement affirme que MemPalace obtient 100 % lors de l’évaluation de mémoire à long terme LongMemEval, et qu’elle atteint 96,6 % de précision sans appeler n’importe quelle API externe, qu’elle peut fonctionner entièrement en local sans nécessiter d’abonnement à un service cloud, et qu’elle intègre le système dialectal AAAK censé permettre une compression sans perte jusqu’à 30 fois.

Source de l’image : GitHub Milla Jovovich, star de cinéma américaine, a construit un palais de mémoire pour l’IA, suscitant l’attention

Ses pairs et la communauté mettent en cause la mise à l’essai et les défauts de la promotion

Cependant, le score parfait annoncé de LongMemEval n’a pas tardé à être remis en question par des pairs.

PenfieldLabs, un autre acteur qui produit des systèmes IA de mémoire, a indiqué que le score parfait annoncé de MemPalace sur le jeu de données LoCoMo n’est pas possible mathématiquement, car les réponses standard de ce jeu de données contiennent elles-mêmes 99 erreurs.

L’analyse de PenfieldLabs a révélé que le score de 100 % de MemPalace provient du fait que le nombre de récupérations est réglé à 50 fois, mais que le nombre maximal d’étapes dans les dialogues du jeu de test n’est que de 32 fois ; cela signifie que le système contourne directement l’étape de récupération et confie toutes les données au modèle IA pour qu’il les lise.

Concernant le score de 100 % sur LongMemEval, l’équipe de développement a été trouvée en train de viser trois problèmes spécifiques qui ont été générés lors de la phase de mise au point : elle a rédigé du code de correction dédié, ce qui laisse penser qu’il y a eu triche sur l’ensemble de test.

Source de l’image : Reddit PenfieldLabs, des pairs, indique que MemPalace prétend obtenir un score parfait sur le jeu de données LoCoMo, ce qui est impossible mathématiquement

Tests d’utilisateurs sur GitHub : la batterie de tests comporte des éléments trompeurs

L’utilisateur de GitHub hugooconnor, après l’avoir testé en conditions réelles, a commenté : MemPalace affirme avoir jusqu’à 96,6 % de précision de récupération, mais en réalité, il n’utilise absolument pas l’architecture du palais de mémoire mise en avant par MemPalace. hugooconnor affirme que leurs tests se résument simplement à appeler la fonction par défaut de la base de données sous-jacente ChromaDB, sans aucune logique de classification impliquant les zones d’ailes, les pièces ou les tiroirs que le projet met en avant.

Après ses tests, hugooconnor a constaté qu’une fois que le système active réellement la logique de classification exclusive de ces palais de mémoire, les performances de récupération diminuent au contraire. Par exemple, en mode pièce, la précision descend à 89,4 %, et après activation de la technologie de compression AAAK, la précision tombe encore à 84,2 % ; dans les deux cas, elles sont inférieures aux performances de la base de données par défaut.

hugooconnor a également critiqué la méthode de test : dans l’environnement de test de MemPalace, la portée de récupération de chaque question est intentionnellement réduite à environ 50 étapes de dialogue ; chercher une réponse dans une base d’échantillons aussi minuscule est trop facile.

Si l’on élargit la portée à plus de 19 000 étapes de dialogue dans des scénarios réels, la précision de la recherche par mots-clés classique chute à 30 %, ce qui montre que la méthode de test actuelle de MemPalace masque le véritable problème de recherche.

Source de l’image : GitHub Tests réels d’utilisateurs sur GitHub : la batterie de tests de MemPalace comporte une part de contenu trompeur

Par ailleurs, bien que l’équipe de développement ait déjà publié une déclaration de rectification et ait admis que la technologie AAAK a bien été validée comme une compression avec pertes, et qu’elle se soit engagée à corriger la documentation et la conception du système conformément aux critiques sévères de la communauté, le document principal de présentation du projet conserve encore plusieurs affirmations exagérées non corrigées, notamment la revendication de « compression sans perte 30 fois » et une « amélioration de 34 % de la récupération », et les graphiques comparatifs avec d’autres concurrents manquent également totalement de sources et d’origines.

Le code source de MemPalace fait face à plusieurs bugs

À mesure que de plus en plus de développeurs téléchargent et testent, de nombreux rapports de bugs concernant le code source de MemPalace apparaissent sur la plateforme GitHub.

L’utilisateur cktang88 a listé plusieurs défauts sérieux, notamment : des commandes de compression qui ne fonctionnent pas et provoquent le crash du système, une logique erronée de calcul du nombre de mots dans les résumés, des statistiques inexactes pour l’extraction des pièces, ainsi que le fait que, lors de chaque appel, le serveur charge toutes les données d’interprétation en mémoire, entraînant de graves problèmes de consommation de ressources.

D’autres problèmes signalés incluent aussi : le système écrit de force les noms des membres de la famille des développeurs dans un fichier de configuration par défaut, et il existe une limite d’affichage obligatoire pour l’état de la requête, avec un plafond de 10k entrées de données.

Face à ces problèmes, la communauté open source a commencé à les corriger activement. L’utilisateur adv3nt3 soumet plusieursdemandes decorrection**, notamment : corriger les statistiques d’extraction, supprimer les noms de membres de la famille par défaut, et retarder l’initialisation du temps du graphe de connaissances.** Par la suite, l’équipe de développement a également reconnu ces erreurs et résout progressivement les problèmes de code grâce à la collaboration avec la communauté.

Vibe Coding avec Milla Jovovich, c’est cool ; la stratégie marketing, elle ne l’est pas

À propos du projet MemPalace, un internaute de Hacker News, darkhanakh, a tiré la conclusion suivante : MemPalace donne l’impression d’un « OpenClaw » — c’est-à-dire qu’on manipule artificiellement les résultats d’une batterie de tests (benchmark) pour les rendre parfaitement impeccables, puis on les emballe pour les vendre comme une sorte de grande percée.

Il pense que la technologie sous-jacente de MemPalace est peut-être effectivement intéressante, mais dans un contexte où la méthode de test présente ce type de défauts, et qu’en plus on fait la promotion en affirmant « le score le plus élevé jamais rendu public », ce n’est vraiment pas très approprié ; « Mais, le fait que Milla Jovovich s’amuse avec le Vibe Coding, je pense que c’est quand même plutôt cool. »

Lecture complémentaire :
Des bugs dans le code IA ! L’application « chasseur de gaspillage » pour les produits de supermarché à date courte explose en problèmes de sécurité, le GPS à la maison se retrouve entièrement exposé

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire