Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Google đã phát hành một bài báo về TurboQuant, trong vòng 24 giờ cộng đồng đã chuyển thể nó sang llama.cpp
TurboQuant đã làm gì? Nén bộ đệm KV của mô hình lớn xuống còn 3-bit, giảm tiêu thụ bộ nhớ gấp 6 lần, tốc độ suy luận trên H100 nhanh gấp 8 lần
Điều quan trọng là — không cần huấn luyện lại, không cần tinh chỉnh, không mất độ chính xác. Đó chính là một trong những lý do khiến cổ phiếu chip giảm mạnh.
Samsung, SK Hynix giảm hơn 6% tại Seoul, Micron giảm 6,9% trên thị trường Mỹ.
Thị trường lo ngại — nếu mỗi mô hình đều có thể sử dụng ít bộ nhớ hơn 6 lần, thì nhu cầu HBM sẽ giảm đi?
Nhưng tôi nghĩ phản ứng của thị trường đã quá mức. Nguyên nhân rất đơn giản. Bộ nhớ tiết kiệm được sẽ không bị bỏ phí. Bộ đệm KV nhỏ hơn có nghĩa là cùng một card có thể chạy được nhiều ngữ cảnh hơn, nhiều yêu cầu đồng thời hơn. Nhu cầu sẽ không giảm, chỉ là được phân bổ lại.
Điều này đã lặp đi lặp lại trong lịch sử công nghệ — CPU nhanh hơn, phần mềm tận dụng hết tất cả dư địa hiệu năng. Băng thông lớn hơn, luồng video tiêu thụ hết tất cả băng thông. Bộ nhớ tiết kiệm hơn, mô hình sẽ trở nên lớn hơn và tham lam hơn.
Discussion #20969 của llama.cpp đã có bản thực thi CPU có thể chạy được (thuần C, không phụ thuộc) và kernel CUDA.
Có người đã chạy được trên Apple Silicon bằng Metal. Điều này có nghĩa là rào cản chạy mô hình tại chỗ lại giảm xuống một cấp.
TurboQuant trong ngắn hạn gây tiêu cực cho tâm lý cổ phiếu chip, trung hạn là lợi ích về hiệu quả của toàn ngành AI. Người chạy mô hình tại chỗ đã kiếm được — cùng một chiếc Mac có thể chứa được mô hình lớn hơn. Các công ty chip đừng hoảng loạn — nhu cầu sẽ không biến mất, chỉ là được sử dụng hiệu quả hơn.