MiniMax M2.7 mang đến mô hình AI 230 tỷ tham số cho hạ tầng của NVIDIA

robot
Đang tạo bản tóm tắt

Ted Hisokawa

12 Tháng 4, 2026 01:37

MiniMax phát hành M2.7, một mô hình hỗn hợp chuyên gia 230 tỷ tham số tối ưu hóa cho GPU NVIDIA với tốc độ xử lý tăng lên gấp 2.7 lần trên phần cứng Blackwell.

MiniMax đã phát hành M2.7, một mô hình AI mở trọng số 230 tỷ tham số được thiết kế đặc biệt cho quy trình làm việc của tác nhân tự động, hiện có sẵn trong hệ sinh thái suy luận của NVIDIA bao gồm cả GPU Blackwell Ultra mới nhất của công ty.

Mô hình này thể hiện một chiến lược hiệu quả đáng kể trong AI doanh nghiệp. Mặc dù có tổng cộng 230 tỷ tham số lớn, M2.7 chỉ kích hoạt 10 tỷ tham số mỗi token—tỷ lệ kích hoạt 4,3% đạt được thông qua kiến trúc hỗn hợp chuyên gia (MoE) với 256 chuyên gia cục bộ. Điều này giúp giữ chi phí suy luận ở mức hợp lý trong khi vẫn duy trì khả năng lý luận của một mô hình lớn hơn nhiều.

Thông số hiệu suất trên Blackwell

NVIDIA hợp tác với cộng đồng mã nguồn mở để tối ưu hóa M2.7 cho các tải công việc sản xuất. Hai tối ưu chính—nhân kernel RMS Norm kết hợp QK và tích hợp FP8 MoE từ TensorRT-LLM—đã mang lại cải thiện đáng kể về tốc độ xử lý trên GPU Blackwell Ultra.

Kiểm thử với bộ dữ liệu có độ dài chuỗi đầu vào/đầu ra 1K/1K cho thấy vLLM đạt tốc độ xử lý tối đa tăng 2,5 lần, trong khi SGLang đạt 2,7 lần. Cả hai tối ưu này đã được triển khai trong vòng một tháng, cho thấy còn nhiều dư địa để nâng cao hiệu suất hơn nữa.

Kiến trúc kỹ thuật

M2.7 hỗ trợ độ dài ngữ cảnh đầu vào 200K qua 62 lớp, sử dụng tự chú ý có causal multi-head với Nhúng Vị trí Quay (RoPE). Cơ chế định tuyến chuyên gia top-k kích hoạt chỉ 8 trong số 256 chuyên gia cho mỗi đầu vào, giúp mô hình duy trì chi phí suy luận thấp mặc dù quy mô lớn.

Kiến trúc này hướng tới các thử thách lập trình và nhiệm vụ phức tạp của tác nhân—những quy trình làm việc nơi hệ thống AI cần lập kế hoạch, thực thi và lặp lại một cách tự chủ thay vì phản hồi theo từng yêu cầu đơn lẻ.

Các tùy chọn triển khai

Các nhà phát triển có thể truy cập M2.7 qua nhiều kênh khác nhau. Bộ tham chiếu NemoClaw của NVIDIA cung cấp triển khai một nhấn để chạy tác nhân tự động với môi trường OpenShell. Mô hình cũng có sẵn qua các dịch vụ vi mô container NIM của NVIDIA để triển khai tại chỗ, trên đám mây hoặc kết hợp.

Đối với các nhóm muốn tùy chỉnh mô hình, thư viện NeMo AutoModel của NVIDIA hỗ trợ tinh chỉnh theo các công thức đã công bố. Quy trình học tăng cường có thể thực hiện qua NeMo RL với các cấu hình mẫu cho độ dài chuỗi 8K và 16K.

Các điểm cuối tăng tốc GPU miễn phí trên build.nvidia.com cho phép thử nghiệm trước khi cam kết hạ tầng. Các trọng số mở cũng có sẵn trên Hugging Face để triển khai tự lưu trữ.

Phiên bản này định vị MiniMax như một lựa chọn đáng tin cậy thay thế các mô hình đóng của OpenAI và Anthropic cho doanh nghiệp xây dựng hệ thống AI tự động, đặc biệt là những doanh nghiệp đã đầu tư vào hạ tầng của NVIDIA.

Nguồn hình ảnh: Shutterstock

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.27KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.27KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.28KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.28KNgười nắm giữ:0
    0.00%
  • Vốn hóa:$2.28KNgười nắm giữ:1
    0.00%
  • Ghim