Apakah Milla Jovovich dan Vicky menggunakan AI untuk membuat «proyek bernilai sempurna»? Pengembang menguji: apakah memang berkualitas atau dilebih-lebihkan untuk promosi?

CryptoCity

Sistem memori AI MemPalace yang dikembangkan oleh Milla Jovovich diklaim berhasil lulus uji coba penuh skor dan langsung viral, namun kemudian komunitas menendangnya karena diduga melakukan kecurangan dalam pengujian dan menyesatkan data. Hasil pengujian aktual menemukan bahwa pencapaiannya dilebih-lebihkan dan ada banyak kesalahan; tim telah mengakui kekurangan dan sedang melakukan perbaikan.

Milla Jovovich membangun “AI Memory Palace”, menarik perhatian publik

Kemarin (4/7), ada kabar besar di lingkaran AI: aktris Hollywood terkenal karena《Resident Evil》、《The Fifth Element》, Milla Jovovich, bersama pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem memori AI open source bernama “MemPalace”.

Seketika, klaim “bintang besar Hollywood lintas bidang membuat proyek dengan nilai sempurna” menyebar luas; hingga saat ini, MemPalace di GitHub juga telah mendapatkan lebih dari 20k bintang, namun segera memunculkan kecurigaan dari komunitas pengembang: benar-benar ada isinya atau cuma promosi?

Mari kita bahas dulu motivasi lahirnya MemPalace. Dokumen resminya menyebutkan bahwa tujuan mereka adalah memecahkan keterbatasan sistem AI yang ada saat ini: konten percakapan pengguna dengan AI, proses pengambilan keputusan, dan diskusi arsitektur biasanya menghilang setelah sesi kerja selesai, sehingga kerja keras berbulan-bulan menjadi sia-sia.

Untuk mengatasi masalah ini, MemPalace menggunakan arsitektur spasial untuk menyimpan memori: informasi diklasifikasikan secara jelas ke area sayap yang mewakili personel atau proyek, serta ke struktur tingkat berbeda seperti lorong, kamar, dan laci, sambil mempertahankan teks asli percakapan untuk penelusuran makna di kemudian hari.

Tim pengembang mengklaim bahwa MemPalace meraih skor sempurna 100% pada tolok ukur evaluasi memori jangka panjang LongMemEval, dan mencapai akurasi 96,6% tanpa memanggil API eksternal apa pun. Selain itu, sistem ini dapat berjalan sepenuhnya secara lokal, tidak perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim mampu kompresi tanpa rugi hingga 30 kali.

Sumber gambar: GitHub Bintang film Amerika Milla Jovovich membangun AI Memory Palace, menarik perhatian publik

Rekan industri dan komunitas bersama-sama mempertanyakan, metode pengujian dan materi promosi penuh masalah

Namun, klaim bahwa MemPalace meraih skor penuh di LongMemEval dengan cepat memicu keraguan dari rekan industri.

PenfieldLabs, yang juga mengembangkan sistem memori AI, menyoroti bahwa MemPalace mengklaim memperoleh skor sempurna pada kumpulan data LoCoMo, dan secara matematis hal itu tidak mungkin terjadi, karena jawaban standar pada kumpulan data tersebut sendiri sudah memuat 99 kesalahan.

Analisis PenfieldLabs menemukan bahwa capaian 100% MemPalace berasal dari menetapkan jumlah penelusuran menjadi 50 kali, tetapi jumlah tahap percakapan maksimum pada data uji hanya 32 kali; ini berarti sistem langsung melewati tahap penelusuran, menyerahkan seluruh data kepada model AI untuk dibaca.

Terkait skor 100% LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang salah terjadi saat konsentrasi pengembangan, menulis kode perbaikan khusus; hal ini menimbulkan dugaan adanya kecurangan terhadap set pengujian.

Sumber gambar: Reddit PenfieldLabs dari rekan industri menunjukkan bahwa MemPalace mengklaim meraih skor sempurna pada kumpulan data LoCoMo, dan secara matematis hal itu tidak mungkin terjadi

Pengujian pengguna GitHub, tolok ukur memiliki unsur menyesatkan

Pengguna GitHub hugooconnor mengomentari setelah pengujian aktual: klaim MemPalace tentang akurasi penelusuran hingga 96,6% ternyata sama sekali tidak menggunakan arsitektur Memory Palace yang dipromosikan. hugooconnor menyatakan bahwa pengujian mereka hanya memanggil fitur bawaan basis data lapisan bawah ChromaDB, tanpa melibatkan logika klasifikasi khusus yang ditekankan dalam proyek seperti area sayap, kamar, atau laci.

Setelah pengujian, hugooconnor menemukan bahwa ketika sistem benar-benar mengaktifkan logika klasifikasi khusus Memory Palace ini, justru terjadi penurunan performa penelusuran. Sebagai contoh mode kamar, akurasi turun menjadi 89,4%, dan setelah mengaktifkan teknik kompresi AAAK, akurasi turun lagi menjadi 84,2%; keduanya lebih rendah daripada performa basis data default.

hugooconnor juga mengkritik metode pengujian: lingkungan pengujian MemPalace dengan sengaja mengecilkan rentang penelusuran untuk setiap pertanyaan menjadi sekitar 50 tahap percakapan, sehingga mencari jawaban di basis data sampel yang sangat kecil menjadi terlalu mudah.

Jika rentangnya diperluas hingga lebih dari 19.000 tahap percakapan dalam skenario nyata, akurasi pencarian kata kunci tradisional akan merosot menjadi 30%, menunjukkan bahwa cara pengujian MemPalace saat ini menutupi masalah kesulitan pencarian yang sebenarnya.

Sumber gambar: GitHub Pengujian aktual pengguna GitHub menunjukkan bahwa tolok ukur MemPalace memiliki unsur yang menyesatkan

Pada saat yang sama, meskipun tim pengembang telah merilis pernyataan koreksi dan mengakui bahwa teknik AAAK memang telah terbukti sebagai kompresi dengan rugi, serta berjanji akan memperbarui dokumen dan desain sistem sesuai kritik ketat dari komunitas, namun dokumen penjelasan utama proyek tetap mempertahankan banyak klaim yang belum dikoreksi, termasuk pernyataan kompresi tanpa rugi 30 kali dan peningkatan penelusuran 34%. Selain itu, bagan perbandingan dengan kompetitor lain juga sepenuhnya tidak menyertakan sumber rujukan.

Kode sumber MemPalace menghadapi banyak Bug

Seiring makin banyak pengembang yang mengunduh pengujian, kini bermunculan banyak laporan Bug terkait kode sumber MemPalace di platform GitHub.

Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk perintah kompresi yang tidak dapat berfungsi dan menyebabkan sistem crash, kesalahan logika perhitungan jumlah kata ringkasan, serta data statistik penggalian kamar yang tidak akurat, dan ketika server dipanggil setiap kali, semua data interpretasi dimuat ke memori sehingga menimbulkan masalah konsumsi sumber daya yang parah.

Masalah lain yang turut disorot termasuk sistem yang memaksa nama anggota keluarga pengembang ditulis ke profil pengaturan default, serta adanya batas tampilan paksa sebesar 10k data saat melakukan kueri status.

Untuk masalah-masalah tersebut, komunitas open source sudah mulai melakukan perbaikan secara aktif. Pengguna adv3nt3 mengajukan berbagai** permintaan**** perbaikan****, termasuk memperbaiki data statistik penggalian, menghapus nama anggota keluarga default, serta menunda waktu inisialisasi pengetahuan graf.** Tim pengembang selanjutnya juga mengakui kesalahan-kesalahan ini, dan sedang menyelesaikan masalah pada kode secara bertahap melalui kolaborasi komunitas.

Milla Jovovich Vibe Coding itu keren, cara pemasarannya tidak keren

Untuk proyek MemPalace ini, pengguna Hacker News darkhanakh menarik sebuah kesimpulan: MemPalace memberikan kesan seperti OpenClaw, yaitu secara artifisial memanipulasi hasil tolok ukur (benchmark) agar terlihat sempurna, lalu mengemasnya sebagai semacam terobosan besar untuk pemasaran.

Ia berpendapat bahwa teknologi dasar MemPalace mungkin memang menarik, tetapi dalam kondisi metode pengujian memiliki cacat seperti itu, lalu tetap mengangkatnya untuk mempromosikan “skor publik tertinggi sepanjang masa”, menurutnya hal itu sebenarnya kurang pantas, “Tapi, soal Milla Jovovich bermain Vibe Coding, aku tetap rasa itu cukup keren.”

Bacaan lanjutan:
AI menulis kode dan berantakan! Aplikasi “Sicermangsa” produk tanggal kedaluwarsa minimarket meledak masalah keamanan siber, GPS di rumah membelah tanpa penutup

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar