Mila Jovovich utilise l’IA pour créer un « projet à score parfait » ? Test des développeurs : est-ce vraiment pertinent ou une exagération marketing ?

Le système de mémoire IA MemPalace, développé avec la participation de Milla Jovovich, affirme avoir obtenu un score parfait lors de ses tests et devient viral, mais la communauté l’a rapidement accusé de tricherie pendant les tests et de données trompeuses. Des tests en situation réelle révèlent que les résultats sont exagérés et qu’il y a de nombreuses erreurs ; l’équipe a reconnu des défauts et travaille à les corriger.

Milla Jovovich crée un « palais de mémoire » pour l’IA, suscitant l’attention du public

Hier (4/7), il y a eu une grande nouvelle dans le monde de l’IA : l’actrice hollywoodienne Milla Jovovich (connue pour Resident Evil et Le Cinquième Élément), célèbre à Hollywood, a, avec le développeur Ben Sigman, aidé au développement de « MemPalace », un système IA de mémoire ouvert (open source) assisté par Claude Code.

À un moment donné, l’idée selon laquelle « une superstar hollywoodienne se lance dans un projet “full score” en croisant ses compétences » s’est largement répandue. À ce jour, MemPalace a aussi obtenu plus de 20k étoiles sur GitHub, mais elle a très vite déclenché des doutes dans la communauté des développeurs : y a-t-il vraiment quelque chose de solide, ou s’agit-il de simple marketing ?

Expliquons d’abord la motivation derrière la création de MemPalace. D’après la documentation officielle, il s’agissait de résoudre la limite actuelle des systèmes IA : les contenus de conversation entre les utilisateurs et l’IA, ainsi que les processus décisionnels et les discussions sur l’architecture, disparaissent généralement après la fin d’une session de travail, entraînant la « chute à zéro » de plusieurs mois d’efforts.

Pour résoudre ce problème, MemPalace utilise une architecture spatiale pour stocker la mémoire : les informations sont classées clairement dans des zones d’ailes représentant des personnes ou des projets, ainsi que dans des structures à différents niveaux comme des couloirs, des chambres et des tiroirs, tout en conservant le texte original des conversations pour une recherche sémantique ultérieure.

L’équipe de développement affirme que MemPalace obtient 100 % au critère d’évaluation de la mémoire à long terme LongMemEval, et atteint un taux de précision de 96,6 % sans appeler aucune API externe. De plus, elle peut fonctionner entièrement en local, sans nécessiter d’abonnement à des services cloud, et est équipée d’un système de dialecte AAAK annoncé capable d’atteindre une compression sans perte jusqu’à 30 fois.

Source de l’image : GitHub Milla Jovovich, star de cinéma américaine, crée un palais de mémoire pour l’IA, suscitant l’attention du public

Concurrents et communauté émettent des doutes : méthode de test et communication entachées de défauts

Cependant, le score parfait annoncé par MemPalace dans LongMemEval a rapidement suscité des critiques de la part de concurrents.

PenfieldLabs, qui produit aussi des systèmes de mémoire IA, indique que l’affirmation selon laquelle MemPalace obtient un score parfait sur le jeu de données LoCoMo est mathématiquement impossible, car les réponses standards de ce jeu de données contiennent elles-mêmes 99 erreurs.

L’analyse de PenfieldLabs montre que la performance à 100 % de MemPalace vient du fait que la quantité de récupération est réglée à 50 fois, mais que le nombre maximal d’étapes de dialogue dans les données de test n’est que de 32 ; cela signifie que le système contourne directement l’étape de récupération et confie toutes les données au modèle IA pour lecture.

Concernant le score à 100 % de LongMemEval, on a découvert que l’équipe de développement s’attaquait à 3 problèmes spécifiques qui avaient été identifiés comme sources d’erreurs dans la partie développement, en écrivant des codes de correction dédiés. Cela donne lieu à des soupçons de triche visant le jeu de test.

Source de l’image : Reddit PenfieldLabs, un concurrent, indique que MemPalace affirme obtenir un score parfait sur le jeu de données LoCoMo, ce qui est mathématiquement impossible

Tests réels des utilisateurs GitHub : la référence comporte une part de contenu trompeur

L’utilisateur GitHub hugooconnor a, après avoir testé, commenté : selon MemPalace, le taux de précision de récupération atteint 96,6 %, mais en réalité, le système n’utilise pas du tout l’architecture de « palais de mémoire » mise en avant par MemPalace. hugooconnor affirme que leurs tests consistent simplement à appeler la fonction par défaut de la base de données sous-jacente ChromaDB, sans aucun rapport avec la logique de catégorisation des « ailes », des chambres ou des tiroirs, qui est au cœur du projet.

Après ses tests, hugooconnor a découvert qu’une fois que le système active réellement cette logique de catégorisation exclusive des palais de mémoire, les performances de récupération se détériorent au contraire. Par exemple, en mode chambre, la précision baisse à 89,4 %, et une fois la technologie de compression AAAK activée, la précision tombe encore à 84,2 % ; dans les deux cas, les résultats sont inférieurs à ceux du fonctionnement de la base de données par défaut.

hugooconnor critique également la méthode de test : l’environnement de test de MemPalace réduit volontairement le périmètre de récupération de chaque question à environ 50 étapes de dialogue, et trouver des réponses dans une base d’échantillons extrêmement réduite est trop facile.

Si l’on élargit la portée à plus de 19 000 étapes de dialogue dans un contexte réel, la précision de la recherche par mots-clés traditionnelle chute jusqu’à 30 %, ce qui montre que la méthode de test actuelle de MemPalace masque les vraies difficultés de recherche.

Source de l’image : GitHub Test réel par un utilisateur GitHub, MemPalace : une partie du test de référence est trompeuse

Par ailleurs, bien que l’équipe de développement ait déjà publié une déclaration de correction, en reconnaissant que la technologie AAAK a effectivement été validée comme une compression avec perte et en promettant de modifier la documentation et la conception du système en fonction des critiques sévères de la communauté, le document principal de présentation du projet conserve malgré tout plusieurs affirmations exagérées non corrigées. Il s’agit notamment de la revendication d’une compression sans perte 30 fois, et d’une amélioration de 34 % de la récupération, et les graphiques comparatifs avec d’autres concurrents ne fournissent également aucune source ni origine.

Le code source de MemPalace fait face à de nombreux Bugs

À mesure que de plus en plus de développeurs téléchargent les tests, de nombreux rapports de bugs concernant le code source de MemPalace apparaissent sur la plateforme GitHub.

L’utilisateur cktang88 liste plusieurs défauts graves, notamment : les instructions de compression ne peuvent pas fonctionner et provoquent le crash du système ; une erreur dans la logique de calcul du nombre de mots des résumés ; des statistiques inexactes sur l’extraction des chambres ; et le serveur charge, lors de chaque appel, toutes les données d’interprétation en mémoire, ce qui entraîne de sérieux problèmes de consommation de ressources.

D’autres problèmes signalés incluent aussi le fait que le système écrit de force les noms des membres de la famille du développeur dans le fichier de configuration par défaut, ainsi qu’une limite d’affichage forcée lors de la consultation de l’état, avec 10k entrées de données.

Pour ces problèmes, la communauté open source a commencé à les corriger activement. L’utilisateur adv3nt3 a soumis plusieurs demandes** de correction****, comprenant la correction des données statistiques d’extraction, la suppression des noms de membres de la famille par défaut, et le report du moment d’initialisation de la carte de connaissances.** Par la suite, l’équipe de développement a aussi reconnu ces erreurs et travaille, avec la collaboration de la communauté, à résoudre progressivement les problèmes de code.

Vibe Coding avec Milla Jovovich, c’est cool ; la manière de faire du marketing, pas cool

Concernant le projet MemPalace, un internaute de Hacker News, darkhanakh, a tiré la conclusion suivante : MemPalace donne l’impression d’OpenClaw, c’est-à-dire manipuler artificiellement les résultats de tests de référence (benchmark) pour les faire paraître impeccables, puis les emballer pour les promouvoir comme une percée majeure.

Il estime que la technologie sous-jacente de MemPalace est peut-être effectivement intéressante, mais dans des conditions où la méthode de test présente ce genre de défauts, et où l’on fait ensuite la promotion avec « le score le plus élevé jamais rendu public », ce n’est vraiment pas très approprié, « mais bon, le fait que Milla Jovovich joue au Vibe Coding, je trouve quand même ça assez cool. »

Lecture complémentaire :
L’IA écrit du code et ça tourne mal ! L’application « Chasseur de restes », des produits à date courte vendus en supermarché, explose avec des problèmes de cybersécurité : le GPS de la maison est à nu partout

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire