Mila Jovovich Vicki dùng AI để tạo ra “dự án điểm tối đa” ư? Nhà phát triển thử nghiệm: thật sự có gì đó đáng giá hay chỉ là thổi phồng để câu view?

CryptoCity

Hệ thống ghi nhớ AI MemPalace do Milla Jovovich tham gia phát triển tuyên bố đạt điểm tuyệt đối trong quá trình thử nghiệm và bỗng bùng nổ lan truyền, nhưng nhanh chóng bị cộng đồng bóc phốt là có dấu hiệu gian lận trong thử nghiệm và gây hiểu lầm về dữ liệu. Kiểm chứng thực tế cho thấy hiệu quả được thổi phồng quá mức và có rất nhiều lỗi; nhóm phát triển đã thừa nhận những thiếu sót và đang tiến hành sửa chữa.

Milla Jovovich xây dựng “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Hôm qua (4/7), trong giới AI có một tin tức lớn: nữ diễn viên Hollywood nổi tiếng với《Resident Evil》và《The Fifth Element》, Milla Jovovich, đã cùng nhà phát triển Ben Sigman sử dụng Claude Code để hỗ trợ phát triển hệ thống “MemPalace” mã nguồn mở—một hệ thống ghi nhớ AI.

Trong lúc đó, những lời đồn kiểu “sao Hollywood lấn sân, làm ra dự án điểm tuyệt đối” lan truyền rộng rãi; đến nay, MemPalace cũng đã nhận được hơn 20k lượt sao trên GitHub, nhưng rất nhanh đã dấy lên sự nghi ngờ từ cộng đồng nhà phát triển: Liệu có thật sự có gì hay, hay chỉ là chiêu trò PR?

Trước tiên, hãy nói về động cơ ra đời của MemPalace. Tài liệu chính thức cho biết họ muốn giải quyết vấn đề rằng nội dung hội thoại giữa người dùng AI và AI, quá trình ra quyết định và thảo luận về kiến trúc thường biến mất sau khi kết thúc phiên làm việc, khiến công sức dồn hàng tháng trở thành công cốc.

Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ, phân loại rõ ràng thông tin vào các “cánh” đại diện cho cá nhân hoặc dự án, cũng như vào các cấu trúc khác nhau như hành lang, phòng và ngăn kéo; đồng thời giữ nguyên văn bản hội thoại để phục vụ việc truy xuất ngữ nghĩa về sau.

Nhóm phát triển tuyên bố rằng, MemPalace đạt 100% điểm hoàn hảo trong bộ tiêu chuẩn đánh giá ghi nhớ dài hạn LongMemEval, và đạt độ chính xác 96,6% mà không cần gọi bất kỳ API bên ngoài nào, hơn nữa có thể chạy hoàn toàn trên máy cục bộ, không cần đăng ký dịch vụ đám mây, đồng thời được trang bị hệ thống phương ngữ AAAK được cho là có thể đạt nén không hao tổn gấp 30 lần.

Nguồn ảnh: GitHub Sao Hollywood Mỹ Milla Jovovich xây dựng cung điện trí nhớ AI, thu hút sự chú ý từ bên ngoài

Các đối thủ và cộng đồng đồng loạt nghi vấn, phương pháp thử nghiệm và nội dung quảng bá có nhiều điểm không ổn

Tuy nhiên, thành tích được gắn mác “100%” ở LongMemEval của MemPalace đã nhanh chóng kéo theo sự nghi ngờ từ các đối thủ.

PenfieldLabs—một đơn vị cũng tạo ra hệ thống ghi nhớ AI—chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học, vì đáp án chuẩn của bộ dữ liệu này bản thân đã chứa 99 lỗi.

Phân tích của PenfieldLabs cho thấy, điểm 100% của MemPalace đến từ việc đặt số lần truy xuất (retrieval) là 50 lần, nhưng số lần ở cấp cao nhất của các đoạn hội thoại trong bộ dữ liệu thử nghiệm chỉ có 32 lần, điều này có nghĩa là hệ thống bỏ qua trực tiếp giai đoạn truy xuất, giao toàn bộ dữ liệu cho mô hình AI để đọc.

Liên quan đến thành tích 100% của LongMemEval, nhóm phát triển bị phát hiện là nhắm vào 3 vấn đề cụ thể đã xảy ra lỗi tập trung trong quá trình phát triển, viết mã chương trình sửa chữa riêng, và điều này dấy lên nghi ngờ rằng họ gian lận nhắm vào bộ thử nghiệm.

Nguồn ảnh: Reddit Đối thủ PenfieldLabs cho biết MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo là điều không thể xảy ra về mặt toán học

Thử nghiệm thực tế trên GitHub: điểm chuẩn có thành phần gây hiểu lầm

Người dùng GitHub hugooconnor thì sau khi thử nghiệm thực tế đã bình luận rằng, MemPalace tuyên bố có tỷ lệ chính xác truy xuất lên tới 96,6%, nhưng thực tế hoàn toàn không hề sử dụng kiến trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết nhóm của họ chỉ gọi các chức năng mặc định của cơ sở dữ liệu nền tảng ChromaDB, hoàn toàn không liên quan đến logic phân loại theo “cánh” (wing area), “phòng” hoặc “ngăn kéo” mà dự án nhấn mạnh.

Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thực sự bật logic phân loại độc quyền của các cung điện trí nhớ này, thì thành tích truy xuất lại giảm xuống. Ví dụ như chế độ phòng, độ chính xác giảm xuống còn 89,4%, và sau khi bật công nghệ nén AAAK thì độ chính xác còn giảm tiếp xuống 84,2%; cả hai đều thấp hơn hiệu suất của cơ sở dữ liệu mặc định.

hugooconnor cũng chỉ trích phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố tình thu hẹp phạm vi truy xuất của mỗi câu hỏi xuống khoảng 50 giai đoạn hội thoại, việc tìm đáp án trong một kho mẫu nhỏ như vậy sẽ quá dễ.

Nếu mở rộng phạm vi ra hơn 19.000 giai đoạn hội thoại trong tình huống thực tế, thì độ chính xác của tìm kiếm theo từ khóa truyền thống sẽ rơi xuống 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che giấu “bài toán tìm kiếm” thực sự khó khăn.

Nguồn ảnh: GitHub Người dùng GitHub thử nghiệm thực tế, MemPalace có thành phần gây hiểu lầm trong điểm chuẩn

Đồng thời, dù nhóm phát triển đã đăng tuyên bố đính chính, thừa nhận rằng công nghệ AAAK thực sự được xác nhận là nén có mất mát, và cam kết sẽ điều chỉnh tài liệu mô tả cũng như thiết kế hệ thống theo những phản biện nghiêm khắc từ cộng đồng. Nhưng phần mô tả chính của dự án vẫn giữ nguyên nhiều tuyên bố phóng đại chưa được chỉnh sửa, bao gồm việc khẳng định nén không hao tổn gấp 30 lần và tăng truy xuất 34%, đồng thời các biểu đồ so sánh với đối thủ khác cũng hoàn toàn thiếu nguồn trích dẫn.

Mã nguồn MemPalace đối mặt nhiều lỗi (Bug)

Khi càng ngày càng nhiều nhà phát triển tải về để thử nghiệm, trên nền tảng GitHub đã xuất hiện hàng loạt báo cáo bug liên quan đến mã nguồn MemPalace.

Người dùng cktang88 liệt kê nhiều khiếm khuyết nghiêm trọng, bao gồm lệnh nén không hoạt động và khiến hệ thống sụp đổ, lỗi trong logic tính toán số lượng từ của bản tóm tắt, dữ liệu thống kê về việc khai quật phòng không chính xác, và việc máy chủ mỗi lần gọi hàm sẽ nạp toàn bộ dữ liệu diễn giải vào bộ nhớ, gây ra vấn đề tiêu tốn tài nguyên nghiêm trọng.

Các vấn đề khác được chỉ ra còn bao gồm việc hệ thống ghi cứng tên thành viên gia đình của nhà phát triển vào tệp cấu hình mặc định, và có giới hạn hiển thị bắt buộc đối với 20kản ghi dữ liệu khi truy vấn trạng thái.

Đối với các vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực khắc phục. Người dùng adv3nt3 đã gửi nhiềuyêu cầu sửa lỗi, bao gồm sửa dữ liệu thống kê khai quật, gỡ bỏ tên thành viên gia đình mặc định và trì hoãn thời gian khởi tạo kiến thức đồ thị (knowledge graph). Nhóm phát triển sau đó cũng thừa nhận các lỗi này, và đang dần giải quyết vấn đề trong mã thông qua sự hợp tác của cộng đồng.

Milla Jovovich Vibe Coding rất ngầu, nhưng cách marketing thì không ngầu

Đối với dự án MemPalace, một người dùng Hacker News là darkhanakh đưa ra kết luận: MemPalace tạo cảm giác như OpenClaw, tức là thao túng thủ công kết quả của bài benchmark để khiến nó trông hoàn hảo vô khuyết, rồi sau đó đóng gói nó thành một “bước đột phá trọng đại” để marketing.

Anh ấy cho rằng công nghệ nền của MemPalace có thể thực sự rất thú vị, nhưng trong bối cảnh phương pháp thử nghiệm mang những kiểu “khiếm khuyết” như vậy, lại còn quảng bá “điểm cao nhất từng công khai” để truyền thông thì không thực sự ổn thỏa; “Nhưng mà, chuyện Milla Jovovich chơi Vibe Coding này, tôi vẫn thấy cũng khá ngầu.”

Đọc thêm:
AI viết code gặp sự cố! App “惜食獵人” của cửa hàng tiện lợi lộ vấn đề an ninh dữ liệu, GPS trong nhà phát sóng toàn bộ trần truồng

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận