IOSG: Từ silic đến thông minh, bộ kỹ thuật huấn luyện và suy luận trí tuệ nhân tạo

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

Sự phát triển nhanh chóng của trí tuệ nhân tạo dựa trên cơ sở hạ tầng phức tạp. Ngăn xếp công nghệ AI là một kiến trúc phân lớp bao gồm phần cứng và phần mềm, nó là trụ cột của cuộc cách mạng AI hiện tại. Ở đây, chúng tôi sẽ phân tích sâu hơn các tầng chính của ngăn xếp công nghệ và đề cập đến đóng góp của mỗi tầng đối với phát triển và triển khai AI. Cuối cùng, chúng tôi sẽ suy ngẫm về tầm quan trọng của việc nắm vững các kiến thức cơ bản này, đặc biệt là khi đánh giá các cơ hội giao thoa giữa Tiền điện tử và lĩnh vực trí tuệ nhân tạo, chẳng hạn như dự án DePIN (Cơ sở hạ tầng vật lý Phi tập trung), ví dụ như mạng GPU.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Lớp phần cứng: Cơ sở silic

Ở tầng dưới cùng là phần cứng, nó cung cấp khả năng tính toán vật lý cho trí tuệ nhân tạo.

CPU（Bộ phận xử lý trung tâm）：là bộ xử lý cơ bản của máy tính. Chúng giỏi trong việc xử lý các nhiệm vụ tuần tự, rất quan trọng đối với tính toán chung, bao gồm tiền xử lý dữ liệu, nhiệm vụ trí tuệ nhân tạo quy mô nhỏ và phối hợp với các thành phần khác.

GPU (bộ xử lý đồ họa): Ban đầu được thiết kế cho việc kết xuất đồ họa, nhưng vì khả năng thực hiện đồng thời nhiều tính toán đơn giản mà trở thành một phần quan trọng của trí tuệ nhân tạo. Khả năng xử lý song song này làm cho GPU rất phù hợp để huấn luyện mô hình học sâu, nếu không có sự phát triển của GPU, mô hình GPT hiện đại sẽ không thể thực hiện được.

Bộ gia tốc AI: Là vi xử lý được thiết kế đặc biệt cho các tải trọng công việc trí tuệ nhân tạo, chúng được tối ưu hóa cho các hoạt động trí tuệ nhân tạo phổ biến, cung cấp hiệu suất cao và hiệu quả năng lượng cho nhiệm vụ huấn luyện và suy luận.

FPGA(可编程阵列逻辑)：với tính linh hoạt do khả năng lập trình lại của nó. Chúng có thể được tối ưu hóa cho các nhiệm vụ trí tuệ nhân tạo cụ thể, đặc biệt là trong các tình huống suy luận cần Trễ thấp.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Phần mềm cơ bản: Middleware

Lớp này trong ngăn xếp công nghệ AI rất quan trọng, vì nó xây dựng cầu nối giữa khung AI cao cấp và phần cứng cấp thấp. Các công nghệ như CUDA, ROCm, OneAPI và SNPE đã tăng cường liên kết giữa khung cao cấp và cấu trúc phần cứng cụ thể, đạt được tối ưu hóa hiệu suất.

Là một lớp phần mềm độc quyền của NVIDIA, CUDA là nền tảng mà công ty này đứng lên trên thị trường phần cứng AI. Vị thế dẫn đầu của NVIDIA không chỉ đến từ ưu thế về phần cứng, mà còn thể hiện sức mạnh của mạng lưới hệ sinh thái và phần mềm tích hợp mạnh mẽ của họ.

Lý do CUDA có sức ảnh hưởng lớn như vậy là vì nó đã được tích hợp vào ngăn xếp công nghệ AI và cung cấp một bộ thư viện tối ưu đã trở thành tiêu chuẩn thực tế trong lĩnh vực này. Hệ sinh thái phần mềm này đã xây dựng một hiệu ứng mạng mạnh mẽ: các nhà nghiên cứu và nhà phát triển AI thành thạo CUDA sử dụng nó trong quá trình huấn luyện và lan truyền nó đến cả học thuật và công nghiệp.

Vòng lặp tích cực phát sinh từ đó đã củng cố vị trí dẫn đầu thị trường của NVIDIA, vì hệ sinh thái công cụ và thư viện dựa trên CUDA ngày càng trở nên quan trọng đối với các chuyên gia AI.

Sự kết hợp phần cứng - phần mềm này không chỉ củng cố vị trí hàng đầu của NVIDIA trong lĩnh vực tính toán AI, mà còn mang lại cho công ty khả năng định giá đáng kể, điều này hiếm thấy trên thị trường phần cứng thường thấy.

Vị trí dẫn đầu của CUDA và sự im lặng tương đối của đối thủ có thể được quy cho một loạt các yếu tố, tạo ra rào cản đáng kể để tiến vào. Ưu thế đầu tiên của NVIDIA trong lĩnh vực tính toán tăng tốc GPU đã giúp CUDA xây dựng một hệ sinh thái mạnh mẽ trước khi đối thủ có thể cố định chỗ đứng. Mặc dù các đối thủ như AMD và Intel có phần cứng tuyệt vời, nhưng lớp phần mềm của họ thiếu thư viện và công cụ cần thiết, không thể tích hợp mượt mà với các công nghệ hiện có, đó chính là lý do tại sao NVIDIA/CUDA có khoảng cách lớn so với các đối thủ khác.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Trình biên dịch: Người dịch

TVM(张量虚拟机)、MLIR(多层中间表示)和PlaidML cung cấp các giải pháp khác nhau cho thách thức tối ưu hóa tải công việc trí tuệ nhân tạo trên nhiều cấu trúc phần cứng khác nhau.

Bắt nguồn từ nghiên cứu tại Đại học Washington, TVM đang nhanh chóng đạt được sức hút nhờ khả năng tối ưu hóa các mô hình học sâu cho nhiều loại thiết bị, từ GPU hiệu suất cao đến các thiết bị biên hạn chế tài nguyên. Ưu điểm nằm ở quy trình tối ưu hóa end-to-end, đặc biệt hiệu quả trong các tình huống suy luận. Nó hoàn toàn trừu tượng hóa sự khác biệt giữa các nhà cung cấp cơ bản và phần cứng, cho phép khối lượng công việc suy luận chạy liền mạch trên các phần cứng khác nhau, từ thiết bị NVIDIA đến AMD, Intel, v.v.

Tuy nhiên, ngoài việc suy luận, tình hình trở nên phức tạp hơn. Việc thay thế phần cứng huấn luyện AI để tính toán mục tiêu cuối cùng vẫn chưa được giải quyết. Tuy nhiên, có một số đề xuất đáng kể trong lĩnh vực này.

MLIR, dự án của Google, sử dụng phương pháp cơ bản hơn. Bằng cách cung cấp một biểu diễn trung gian thống nhất cho nhiều cấp độ trừu tượng, nó nhằm mục tiêu đơn giản hóa toàn bộ cơ sở hạ tầng của trình biên dịch để tập trung vào các trường hợp sử dụng suy luận và huấn luyện.

PlaidML, hiện đang được Intel dẫn đầu, tự mình định vị mình là ngựa đen trong cuộc đua này. Nó tập trung vào tính di động qua nhiều kiến trúc phần cứng (bao gồm cả các kiến trúc không phải là truyền thống của bộ gia tốc AI) và nhìn nhận tương lai của khối lượng công việc AI có thể chạy mượt mà trên mọi nền tảng tính toán.

Nếu bất kỳ trình biên dịch nào trong số này có thể tích hợp tốt vào ngăn xếp kỹ thuật mà không ảnh hưởng đến hiệu suất mô hình và không đòi hỏi bất kỳ sửa đổi bổ sung nào từ các nhà phát triển, điều này có thể đe dọa hàng rào bảo vệ CUDA. Tuy nhiên, hiện tại MLIR và PlaidML vẫn chưa đủ trưởng thành và tích hợp tốt vào ngăn xếp trí tuệ nhân tạo, vì vậy chúng hiện tại không đe dọa vị trí dẫn đầu của CUDA một cách rõ ràng.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Tính toán phân tán: Người điều phối

Ray và Horovod đại diện cho hai phương pháp tính toán phân tán trong lĩnh vực trí tuệ nhân tạo, mỗi phương pháp đều giải quyết các yêu cầu chính về xử lý có thể mở rộng trong ứng dụng trí tuệ nhân tạo quy mô lớn.

Ray, được phát triển bởi RISELab của UC Berkeley, là một framework tính toán phân tán chung. Nó thể hiện sự linh hoạt xuất sắc, cho phép phân phối các tải công việc khác nhau ngoài việc học máy. Mô hình dựa trên actor trong Ray đơn giản hóa quá trình song song hóa mã Python, làm cho nó đặc biệt phù hợp cho việc học tăng cường và các nhiệm vụ trí tuệ nhân tạo khác đòi hỏi quá trình làm việc phức tạp và đa dạng.

Horovod, ban đầu được thiết kế bởi Uber, là một giải pháp phân tán Độ sâu học tập tập trung vào việc mở rộng quá trình đào tạo trên nhiều GPU và Nút máy chủ một cách đơn giản và hiệu quả. Điểm nổi bật của Horovod là tính thân thiện với người dùng và tối ưu hóa cho việc huấn luyện song song của dữ liệu mạng thần kinh, điều này cho phép nó hoàn hảo kết hợp với các khung Độ sâu học tập phổ biến như TensorFlow, PyTorch, giúp cho các nhà phát triển dễ dàng mở rộng mã đào tạo hiện có của mình mà không cần phải sửa đổi mã lớn.

IOSG：从硅到智能，人工智能训练与推理技术栈

5. Kết luận: Từ góc độ Tài sản tiền điện tử

Việc tích hợp với ngăn xếp AI hiện có là rất quan trọng đối với dự án DePin, mục tiêu xây dựng hệ thống tính toán phân tán. Việc tích hợp này đảm bảo tính tương thích với quy trình làm việc và công cụ AI hiện tại, Thả ngưỡng sử dụng.

Trong lĩnh vực Tài sản tiền điện tử, mạng lưới GPU hiện tại thực质上 là một nền tảng cho thuê GPU Phi tập trung, đánh dấu bước đầu tiên tiến vào cơ sở hạ tầng trí tuệ nhân tạo phân tán phức tạp hơn. Những nền tảng này giống hơn một thị trường kiểu Airbnb hơn là hoạt động như một đám mây phân tán. Mặc dù chúng hữu ích đ對 với một số ứng dụng, nhưng những nền tảng này vẫn chưa đủ để hỗ trợ việc huấn luyện phân tán thực sự, và đây chính là nhu cầu chủ chốt để thúc đẩy phát triển trí tuệ nhân tạo quy mô lớn.

Như các tiêu chuẩn tính toán phân phối hiện tại như Ray và Horovod, chúng không được thiết kế cho mạng phân phối toàn cầu, chúng ta cần phát triển một khung cảnh khác ở tầng này cho mạng Phi tập trung thực sự hoạt động. Một số người nghi ngờ thậm chí cho rằng, vì mô hình Transformer cần giao tiếp mật độ cao và tối ưu hóa hàm toàn cầu trong quá trình học, chúng không tương thích với phương pháp huấn luyện phân phối. Ngược lại, những người lạc quan đang cố gắng đưa ra các khung tính toán phân phối mới, các khung này có thể hoạt động tốt với phần cứng phân phối toàn cầu. Yotta là một trong những công ty mới thành lập đang cố gắng giải quyết vấn đề này.

NeuroMesh đi sâu hơn nữa. Nó đã tái thiết kế quá trình học máy một cách đặc biệt sáng tạo. Thay vì trực tiếp tìm kiếm giải pháp tối ưu cho hàm mất mát toàn cục, NeuroMesh giải quyết một rào cản cơ bản trong việc huấn luyện trí tuệ nhân tạo phân tán bằng cách sử dụng mạng mã hóa dự đoán (PCN) để tìm sự hội tụ tối thiểu lỗi cục bộ.

Phương pháp này không chỉ thực hiện được việc song song chưa từng có mà còn làm cho việc huấn luyện mô hình trên phần cứng GPU dành cho người tiêu dùng (như RTX 4090) trở thành khả thi, từ đó đem lại sự dân chủ hóa huấn luyện trí tuệ nhân tạo. Cụ thể, khả năng tính toán của GPU 4090 tương đương với H100, nhưng do băng thông không đủ, chúng không được tận dụng đầy đủ trong quá trình huấn luyện mô hình. Nhờ vào tính quan trọng của băng thông PCNT, việc sử dụng những GPU cấp thấp này trở thành khả thi, điều này có thể mang lại tiết kiệm chi phí đáng kể và cải thiện hiệu suất.

GenSyn, một công ty khởi nghiệp AI mã hóa quyết tâm khác, với mục tiêu xây dựng một trình biên dịch. Trình biên dịch của Gensyn cho phép bất kỳ loại phần cứng tính toán nào được sử dụng một cách mượt mà cho tải công việc AI. Ví dụ, tương tự như vai trò của TVM đối với suy luận, GenSyn đang cố gắng xây dựng một công cụ tương tự cho việc huấn luyện mô hình.

Nếu thành công, nó có thể mở rộng đáng kể khả năng mạng tính toán trí tuệ nhân tạo phi tập trung bằng cách sử dụng hiệu quả các phần cứng khác nhau để xử lý các nhiệm vụ trí tuệ nhân tạo phức tạp và đa dạng hơn. Tuy nhiên, tầm nhìn tham vọng này đầy thách thức do sự phức tạp và rủi ro công nghệ cao của việc tối ưu hóa kiến trúc phần cứng đa dạng, nhưng nếu họ có thể thực hiện được tầm nhìn này và vượt qua các rào cản như duy trì hiệu suất hệ thống không đồng nhất, công nghệ này có thể làm suy yếu lợi thế của CUDA và NVIDIA.

Về suy luận: Phương pháp của Hyperbolic kết hợp suy luận có thể xác minh với mạng Phi tập trung của tài nguyên tính toán không đồng nhất, thể hiện một chiến lược tương đối thiết thực. Bằng cách sử dụng các trình biên dịch tiêu chuẩn như TVM, Hyperbolic có thể tận dụng cấu hình phần cứng rộng rãi, đồng thời duy trì hiệu suất và đáng tin cậy. Nó có thể tổng hợp chip từ nhiều nhà cung cấp (từ NVIDIA đến AMD, Intel, v.v.), bao gồm cả phần cứng tiêu dùng và phần cứng hiệu suất cao.

Những phát triển trong lĩnh vực mã hóa AI này cho thấy một tương lai trong đó tính toán AI có thể trở nên phân tán, hiệu quả và truy cập được hơn. Sự thành công của những dự án này không chỉ phụ thuộc vào lợi thế về công nghệ của chúng, mà còn phụ thuộc vào khả năng tích hợp mượt mà với quy trình làm việc AI hiện có và khả năng giải quyết những quan ngại thực tế của các chuyên gia AI và doanh nghiệp.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.