Wie macht Myra Jovova Vicki mit KI ein „Projekt mit voller Punktzahl“? Entwickler-Test: Ist das wirklich etwas dran oder nur aufgeblasenes Marketing?

CryptoCity

Das von Milla Jovovich mitentwickelte KI-Erinnerungssystem MemPalace behauptet, bei Tests 100% erreicht zu haben und wurde dadurch viral. Doch die Community entlarvte es schnell: Die Tests sollen beim Ausführen geschummelt und die Daten irreführend dargestellt worden sein. In einer praktischen Überprüfung stellte sich heraus, dass die Wirkung übertrieben wurde und es viele Fehler gab. Das Team hat die Mängel bereits eingeräumt und arbeitet derzeit an der Behebung.

Milla Jovovich baut eine KI-Erinnerungspalast – und löst großes Interesse aus

Gestern (4/7) gab es in der KI-Community eine große Neuigkeit: Hollywood-Star Milla Jovovich, bekannt aus „Resident Evil“ und „Das fünfte Element“, hat mit dem Entwickler Ben Sigman mit Hilfe von Claude Code das quelloffene KI-Erinnerungssystem „MemPalace“ entwickelt.

Zunächst verbreitete sich weitgehend die Behauptung „Hollywood-Superstar macht ein Projekt mit Bestnote quer durch Branchen“. MemPalace hat bis heute auf GitHub auch über 20k Sterne erhalten, doch schon bald kam es zu massiven Zweifeln in der Entwickler-Community: Ist da wirklich etwas dran – oder ist es nur Marketing?

Zuerst: Was war die Motivation hinter der Entstehung von MemPalace? In den offiziellen Dokumenten heißt es, man wolle ein Problem lösen, bei dem die Inhalte der Dialoge zwischen Nutzern und KI, die Entscheidungsprozesse sowie Diskussionen zur Architektur in den meisten KI-Systemen nach dem Ende einer Arbeitssitzung verschwinden. Das führt dazu, dass monatelange Arbeit am Ende praktisch null Wert hat.

Um dieses Problem zu lösen, nutzt MemPalace eine räumliche Architektur zum Speichern von Erinnerungen: Informationen werden eindeutig in Flächen eingeordnet, die Personen oder Projekten entsprechen, sowie in Strukturen auf unterschiedlichen Ebenen wie Flure, Räume und Schubladen. So werden die Originaldialoge für eine spätere semantische Suche aufbewahrt.

Das Entwicklungsteam behauptet, MemPalace habe bei der Langzeit-Erinnerungs-Bewertungsbasis LongMemEval 100% bei einer perfekten Punktzahl erreicht und erziele zudem 96,6% Genauigkeit, ohne irgend eine externe API aufzurufen. Außerdem könne es vollständig lokal laufen, ohne ein Cloud-Abo zu benötigen, und es sei mit einem AAAK-Dialekt-System ausgestattet, das angeblich 30-fache verlustfreie Kompression erreichen kann.

Bildquelle: GitHub Hollywood-Star Milla Jovovich baut einen KI-Erinnerungspalast – und löst großes Interesse aus

Kollegen und Community stellen gleichzeitig alles infrage: Testmethode und Werbung mit Mängeln

Doch die angeblich perfekte Punktzahl bei LongMemEval sorgte schon bald für Zweifel bei Kollegen.

PenfieldLabs, ein weiteres Unternehmen, das ebenfalls KI-Erinnerungssysteme entwickelt, wies darauf hin, dass die Behauptung, MemPalace habe in dem Datensatz LoCoMo 100% erreicht, mathematisch unmöglich sei, denn die Standardlösungen dieses Datensatzes enthalten selbst bereits 99 Fehler.

PenfieldLabs fand heraus, dass die 100% Leistung von MemPalace darauf zurückzuführen sind, dass die Anzahl der Retrievals auf 50 gesetzt wurde. Allerdings liegt die höchste Anzahl der Dialogphasen, die in den Testdaten tatsächlich vorhanden sind, nur bei 32. Das bedeutet, dass das System direkt die Retrieval-Phase umgeht und alle Daten dem KI-Modell zum Lesen überlässt.

Bei den 100% von LongMemEval wurde zudem entdeckt, dass das Entwicklungsteam an drei ganz bestimmten Problemen arbeitet, die sich auf die Entwicklungskonfiguration konzentrierten, spezielle Korrektur-Implementierungen dafür verfasst hat und der Verdacht besteht, dass die Testdaten durch Betrug manipuliert wurden.

Bildquelle: Reddit Kollege PenfieldLabs weist darauf hin: MemPalace behauptet, im LoCoMo-Datensatz eine volle Punktzahl zu erreichen – mathematisch unmöglich

GitHub-Nutzer testen selbst nach: Die Benchmark-Tests enthalten einen irreführenden Anteil

GitHub-Nutzer hugooconnor kommentierte nach einer eigenen Überprüfung: MemPalace behauptet eine Retrieval-Genauigkeit von bis zu 96,6%, doch tatsächlich wurde keinerlei Nutzung der von MemPalace beworbenen Erinnerungspalast-Architektur vorgenommen. hugooconnor sagt, ihre Tests würden lediglich die Standardfunktionen der zugrunde liegenden Datenbank ChromaDB aufrufen und hätten keinerlei Zusammenhang mit der von dem Projekt betonten Logik zur Einordnung in Flächen, Räume oder Schubladen.

Nach dem Test von hugooconnor zeigte sich: Wenn das System wirklich die speziellen Klassifizierungs-Logiken dieser Erinnerungspaläste aktiviert, verschlechtert sich die Leistung beim Retrieval sogar. Zum Beispiel im Raum-Modus sinkt die Genauigkeit auf 89,4%, und nach Aktivierung der AAAK-Kompression fällt sie weiter auf 84,2% – beide Werte liegen unter der Leistung der Standard-Datenbank.

hugooconnor kritisierte außerdem die Testmethodik. Das MemPalace-Testumfeld verkleinere absichtlich den Retrieval-Bereich für jede Frage und beschränke ihn auf etwa 50 Dialogphasen. In einer viel zu kleinen Datenbasis nach Antworten zu suchen, sei zu einfach.

Wenn man den Bereich auf mehr als 19.000 Dialogphasen aus realen Szenarien ausweitet, würde die Genauigkeit traditioneller Keyword-Suche auf 30% einbrechen. Das zeigt, dass die aktuelle Testmethode von MemPalace die tatsächliche Schwierigkeit der Suche verdeckt.

Bildquelle: GitHub GitHub-Nutzer testen selbst nach: MemPalace-Benchmark-Tests enthalten einen irreführenden Anteil

Zwar hat das Entwicklungsteam gleichzeitig bereits eine Berichtigung veröffentlicht und eingeräumt, dass die AAAK-Technologie tatsächlich eine verlustbehaftete Kompression nachweist, und versprochen, die Dokumentation sowie das Systemdesign entsprechend strengen Community-Kritiken zu korrigieren. Doch die Hauptbeschreibung des Projekts behält weiterhin mehrere nicht korrigierte Übertreibungen bei, darunter Behauptungen wie 30-fache verlustfreie Kompression und 34% Retrieval-Verbesserung. Außerdem fehlen auch bei den Vergleichsgrafiken mit anderen Wettbewerbern vollständig Quellenangaben.

Der Quellcode von MemPalace sieht sich mit mehreren Bugs konfrontiert

Mit immer mehr Downloads durch Entwickler tauchen auf der GitHub-Plattform eine große Anzahl von Bug-Reports zum Quellcode von MemPalace auf.

Der Nutzer cktang88 listete mehrere schwerwiegende Mängel auf, darunter dass Kompressionsbefehle nicht funktionieren und zum Absturz des Systems führen, Fehler in der Logik zur Berechnung der Wortanzahl bei Zusammenfassungen, sowie ungenaue statistische Daten beim Ausgraben der Räume. Außerdem wird bei jedem Aufruf der Server alle interpretierenden Daten in den Speicher geladen, was zu einem massiven Ressourcenverbrauch führt.

Zu den weiteren genannten Problemen gehört außerdem, dass das System die Namen der Familienmitglieder von Entwicklern hart in die Standard-Konfigurationsdateien schreibt, sowie eine erzwungene Anzeigeobergrenze von 10k Datensätzen bei der Abfrage des Status.

Für diese Probleme hat die Open-Source-Community bereits damit begonnen, aktiv zu reparieren. Der Nutzer adv3nt3 reichte mehrere Reparaturanfragen ein, darunter die Korrektur der Statistikdaten beim Ausgraben, das Entfernen der standardmäßigen Namen von Familienmitgliedern sowie das Hinauszögern der Initialisierungszeit der Wissensgraphen. Das Entwicklungsteam hat diese Fehler später ebenfalls eingeräumt und löst die Code-Probleme Schritt für Schritt im Rahmen der Zusammenarbeit mit der Community.

Milla Jovovichs Vibe Coding ist cool – die Marketingmethode nicht cool

Für das Projekt MemPalace zog ein Hacker-News-Nutzer darkhanakh ein Fazit: MemPalace vermittelt den Eindruck von OpenClaw, also dass die Benchmark-Ergebnisse künstlich so manipuliert werden, dass sie makellos aussehen, und sie dann als eine Art große bahnbrechende Innovation vermarktet werden.

Er findet, die zugrunde liegende Technologie von MemPalace sei möglicherweise tatsächlich interessant. Aber in einem Umfeld, in dem die Testmethode solche Mängel aufweist, und dann gleichzeitig mit „dem höchsten öffentlich erreichbaren Score aller Zeiten“ zu werben, sei das nicht wirklich angemessen. „Aber ehrlich gesagt: Dass Milla Jovovich Vibe Coding spielt, finde ich trotzdem ziemlich cool.“

Weiterführende Lektüre:
KI schreibt Code und macht Ärger! Eine App mit abgelaufenen Produkte aus dem Supermarkt „Xie Shihueren“ explodiert mit Problemen der Datensicherheit, GPS zu Hause läuft komplett nackt durch

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare