2026-03-27 05:02:16

Google đã phát hành một bài báo về TurboQuant, trong vòng 24 giờ cộng đồng đã chuyển thể nó sang llama.cpp

TurboQuant đã làm gì? Nén bộ đệm KV của mô hình lớn xuống còn 3-bit, giảm tiêu thụ bộ nhớ gấp 6 lần, tốc độ suy luận trên H100 nhanh gấp 8 lần
Điều quan trọng là — không cần huấn luyện lại, không cần tinh chỉnh, không mất độ chính xác. Đó chính là một trong những lý do khiến cổ phiếu chip giảm mạnh.
Samsung, SK Hynix giảm hơn 6% tại Seoul, Micron giảm 6,9% trên thị trường Mỹ.
Thị trường lo ngại — nếu mỗi mô hình đều có thể sử dụng ít bộ nhớ hơn 6 lần, thì nhu cầu HBM sẽ giảm đi?
Nhưng tôi nghĩ phản ứng của thị trường đã quá mức. Nguyên nhân rất đơn giản. Bộ nhớ tiết kiệm được sẽ không bị bỏ phí. Bộ đệm KV nhỏ hơn có nghĩa là cùng một card có thể chạy được nhiều ngữ cảnh hơn, nhiều yêu cầu đồng thời hơn. Nhu cầu sẽ không giảm, chỉ là được phân bổ lại.
Điều này đã lặp đi lặp lại trong lịch sử công nghệ — CPU nhanh hơn, phần mềm tận dụng hết tất cả dư địa hiệu năng. Băng thông lớn hơn, luồng video tiêu thụ hết tất cả băng thông. Bộ nhớ tiết kiệm hơn, mô hình sẽ trở nên lớn hơn và tham lam hơn.
Discussion #20969 của llama.cpp đã có bản thực thi CPU có thể chạy được (thuần C, không phụ thuộc) và kernel CUDA.
Có người đã chạy được trên Apple Silicon bằng Metal. Điều này có nghĩa là rào cản chạy mô hình tại chỗ lại giảm xuống một cấp.
TurboQuant trong ngắn hạn gây tiêu cực cho tâm lý cổ phiếu chip, trung hạn là lợi ích về hiệu quả của toàn ngành AI. Người chạy mô hình tại chỗ đã kiếm được — cùng một chiếc Mac có thể chứa được mô hình lớn hơn. Các công ty chip đừng hoảng loạn — nhu cầu sẽ không biến mất, chỉ là được sử dụng hiệu quả hơn.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.