AI2 phát hành proxy web hoàn toàn mã nguồn mở MolmoWeb: chỉ dựa vào "thị giác" là có thể kiểm soát trang web

robot
Đang tạo bản tóm tắt

Trường Nghiên cứu Trí tuệ Nhân tạo Allen (AI2) gần đây đã phát hành MolmoWeb, một proxy mạng hoàn toàn mã nguồn mở mang tính đột phá. Khác với các proxy truyền thống dựa vào mã nguồn phía dưới của trang web (DOM), MolmoWeb chỉ ra quyết định dựa trên việc đọc các ảnh chụp màn hình, đánh dấu bước tiến lớn trong công nghệ định hướng mạng dựa trên “thị giác”.

Công nghệ cốt lõi: “nhìn” trang web như con người

Cơ chế hoạt động của MolmoWeb rất trực quan: nó chụp ảnh màn hình của cửa sổ trình duyệt hiện tại, phân tích hình ảnh để quyết định bước tiếp theo (như nhấp chuột, cuộn trang, chuyển trang), sau đó thực hiện và lặp lại quá trình này. Mô hình “nhìn thấy là có thể làm được” này giúp nó có độ bền cao hơn so với proxy truyền thống, vì bố cục thị giác của trang web thường ổn định hơn so với mã nguồn phía dưới, và quá trình ra quyết định của nó hoàn toàn minh bạch, dễ giải thích đối với người dùng.

Bước nhảy về hiệu suất: mô hình nhỏ đánh bại các ông lớn

Dù quy mô tham số của MolmoWeb chỉ là 4B và 8B, nhưng trong hiệu suất lại thể hiện sức mạnh “dùng ít thắng nhiều”:

Dẫn đầu bảng xếp hạng: Trong thử nghiệm WebVoyager, phiên bản 8B đạt điểm tới 78,2%, không chỉ đứng đầu các mô hình mã nguồn mở mà còn gần sát với mô hình độc quyền của OpenAI là o3 (79,3%).

Tiềm năng lớn: Nghiên cứu cho thấy, bằng cách chạy nhiều lần nhiệm vụ và chọn ra kết quả tối ưu, tỷ lệ thành công có thể tăng lên đến 94,7%.

Định vị chính xác: Trong thử nghiệm chuẩn xác vị trí các phần tử UI, nó còn vượt qua cả Claude3.7 của Anthropic.

Dữ liệu hỗ trợ: Bộ dữ liệu mở lớn nhất từ trước đến nay

Lần này, AI2 không chỉ mở mã nguồn trọng số của mô hình mà còn đóng góp một bộ dữ liệu khổng lồ mang tên MolmoWebMix. Bộ dữ liệu này gồm:

3,6 vạn nhiệm vụ duyệt web thực tế do các tình nguyện viên thực hiện.

Hơn 2,2 triệu ảnh chụp màn hình – cặp câu hỏi đáp.

Dữ liệu tổng hợp tự động được xác nhận qua GPT-4o. Các thử nghiệm cho thấy, dữ liệu tổng hợp này còn vượt xa cả hành trình của con người trong việc hướng dẫn trí thông minh tìm “đường đi tối ưu”.

Tinh thần mở và thách thức trong tương lai

Hiện tại, MolmoWeb đã hoàn toàn mở trên Hugging Face và GitHub theo giấy phép Apache 2.0. Dù vẫn còn những thách thức trong việc xử lý các lệnh phức tạp, xác thực đăng nhập và tuân thủ pháp lý (như điều khoản dịch vụ), AI2 tin tưởng rằng, chỉ có sự minh bạch tuyệt đối và hợp tác cộng đồng mới có thể thực sự chống lại sự độc quyền dữ liệu của các tập đoàn công nghệ lớn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim