You Yang, Đại học Quốc gia Singapore: Làm thế nào AI hiệu suất cao có thể đột phá?

Nguồn: Lôi Phong Net

Tác giả: Hoàng Nam

Các thông số của các mô hình AI đã thay đổi đáng kể trong vài năm qua. You Yang chỉ ra rằng từ năm 2016 đến tháng 1 năm 2021, số lượng tham số của mô hình AI tăng 40 lần sau mỗi 18 tháng; từ tháng 1 năm 2018 đến tháng 1 năm 2021, số lượng tham số của mô hình AI lớn mô hình ngôn ngữ tăng 340 lần sau mỗi 18 tháng. Ngược lại, từ tháng 1 năm 2016 đến tháng 1 năm 2021, bộ nhớ của GPU sẽ chỉ tăng 1,7 lần sau mỗi 18 tháng.

Có thể thấy, chi phí đào tạo cao và chu kỳ dài là những vấn đề khó khắc phục nhất trong quá trình phát triển các mô hình lớn.

Để giải quyết vấn đề này, You Yang đã đề xuất hệ thống Colossal-AI, bắt đầu từ ba cấp độ của hệ thống bộ nhớ hiệu suất cao, hệ thống song song N chiều và tối ưu hóa quy mô lớn, nhằm giảm thiểu chuyển động dữ liệu trong cùng điều kiện thiết bị và tối đa hóa thông lượng GPU, tăng quy mô lên đến điểm cao nhất.

You Yang cũng chỉ ra rằng số lượng tham số mô hình ở giai đoạn này đã được mở rộng 100.000 lần, nhưng số lớp không tăng nhiều, điều đó có thể có nghĩa là sự phát triển của AI ngày nay có thể không còn là deep learning nữa mà đã bước vào thời đại học rộng. Khi mô hình trở nên rộng hơn, trước các nhiệm vụ đào tạo GPU quy mô lớn và dài hạn, cốt lõi của hệ thống đào tạo mô hình lớn sẽ là cách triển khai tính toán song song GPU để đạt được mục tiêu mô hình lớn nhanh hơn và tiết kiệm chi phí hơn đào tạo.

Sau đây là nội dung bài phát biểu trực tiếp của You Yang do Leifeng.com đã biên tập và sắp xếp mà không làm thay đổi ý định ban đầu:

Cơ hội và thách thức của các mô hình AI lớn

Đầu tiên hiển thị một hình ảnh. Trục hoành trên biểu đồ là thời gian và tọa độ là đại lượng tham số của mô hình AI.

Từ năm 2016 đến tháng 1 năm 2021, khối lượng tham số của mô hình lớn AI sẽ tăng khoảng 40 lần sau mỗi 18 tháng; từ tháng 1 năm 2018 đến tháng 1 năm 2021, khối lượng tham số của mô hình AI sẽ tăng khoảng 340 lần sau mỗi 18 tháng.

Năm 2016, mô hình tốt nhất thế giới lúc bấy giờ là ResNet-50, và mô hình tốt nhất hiện nay là GPT-4. Ở góc độ kiến trúc, tuy OpenAI chưa công bố kiến trúc của GPT-4 nhưng so với mạng nơ-ron 50 lớp của ResNet-50 và kiến trúc của GPT-3 có ít hơn 100 lớp thì có thể nói rằng số lớp của mô hình AI trong những năm gần đây không có quá nhiều thay đổi.

Từ ResNet-50 đến GPT-4, mặc dù số lượng tham số đã tăng khoảng 100.000 lần nhưng thực tế mỗi lớp lại trở nên rộng hơn. Bao gồm cả phiên bản LLaMA-65B, nó cũng là một mạng có hàng chục lớp.

Vì vậy, chúng ta có thể không học sâu mà đã bước vào kỷ nguyên học theo chiều rộng.

Có thể thấy, kể từ năm 2019, kiến trúc Transformer về cơ bản đã thống nhất đường mô hình quy mô lớn AI và các mô hình quy mô lớn AI hiệu quả nhất hiện nay đều là kiến trúc Transformer. Hai đường chấm trong hình trên không chỉ thể hiện xu hướng thay đổi của các thông số mô hình lớn mà còn thể hiện xu hướng thay đổi của GPU.

Mặc dù hiện nay giá cổ phiếu của Nvidia đã tăng gấp nhiều lần nhưng tốc độ tăng trưởng bộ nhớ GPU của các nhà sản xuất trong đó có Nvidia vẫn kém xa tốc độ phát triển của các dòng máy lớn.

So với tốc độ tăng trưởng thông số mô hình trong 6 năm qua, từ tháng 1/2016 đến tháng 1/2021, tốc độ tăng trưởng tính toán của GPU NVIDIA chỉ tăng 1,7 lần sau mỗi 18 tháng.

Lấy A100 80G làm ví dụ để tính dung lượng bộ nhớ cần thiết cho việc huấn luyện GPT-3, GPT-3 có khoảng 175 tỷ tham số, để tiện tính toán, lấy số nguyên 200 tỷ, tức là 200 nhân 10 đến lũy thừa thứ 9 và mỗi độ chính xác đơn chiếm 4 Byte, riêng các tham số đã chiếm 800G bộ nhớ và độ dốc cũng chiếm 800G bộ nhớ. Theo phương pháp tối ưu hóa hiện tại, thông tin như khoảnh khắc đầu tiên và khoảnh khắc thứ hai được lưu trữ trong 800G. Nói cách khác, nếu bạn huấn luyện một mô hình lớn không làm gì, bạn cần ít nhất vài terabyte bộ nhớ. Một GPU A100 chỉ có 80G bộ nhớ là không đủ. Ngoài ra, kích thước lô của kết quả trung gian càng lớn , chi phí bộ nhớ càng lớn.

Đây là lý do tại sao, từ góc độ bộ nhớ, việc đào tạo các mô hình lớn trước tiên đòi hỏi hàng nghìn GPU.

Cho một ví dụ định lượng. PaLM là một mô hình lớn trị giá 540 tỷ USD, theo giá thị trường điện toán đám mây hiện tại, việc đào tạo PaLM cần phải ký hợp đồng ít nhất 1.000 GPU và chi phí khoảng hơn 9 triệu đô la Mỹ. Meta đã đề cập rõ ràng trước đó rằng LLaMA cần sử dụng 2.000 GPU A100 và phải mất ba tuần để hoàn thành một buổi đào tạo, từ tính toán này có thể kết luận rằng chi phí cho một buổi đào tạo LLaMA là 5 triệu đô la Mỹ.

Tuy nhiên, vì việc tinh chỉnh một mô hình lớn không chỉ giới hạn trong một buổi đào tạo nên có thể mất ít nhất năm hoặc sáu lần lặp lại để có được một sản phẩm mô hình lớn tốt và giai đoạn đầu đều là thử và sai. Do đó, theo phân tích của kênh công cộng, chi phí cho một buổi đào tạo GPT-4 là khoảng 60 triệu đô la Mỹ và quá trình đào tạo phải mất ít nhất vài tháng. Đây là lý do tại sao ngay cả khi ChatGPT đã được nâng cấp lên phiên bản mới nhất thì lớp dưới cùng của nó vẫn là mẫu của phiên bản tháng 9 năm 2021. Nói cách khác, từ tháng 9 năm 2021 đến nay, bản chất OpenAI chưa nâng cấp sản phẩm của mình, nguyên nhân cơ bản là chi phí đào tạo mỗi mô hình không chỉ cao mà chu kỳ đào tạo cũng rất dài nên chi phí đào tạo cao. đào tạo mô hình lớn rất cao, nghiêm túc.

Hãy tưởng tượng một vấn đề, ngày nay có một mô hình lớn với 1 nghìn tỷ tham số và 100 tỷ tham số, liệu chúng ta có thể sử dụng phương pháp nào để phát hiện xem mô hình lớn với 1 nghìn tỷ tham số có tốt hơn mô hình lớn với 100 tỷ tham số không? Tức là, mức độ tăng số lượng tham số mô hình là bao nhiêu?

Cho đến hôm nay, tôi cảm thấy rằng câu hỏi này chưa thể được trả lời một cách khoa học vào lúc này. Có một số lý do.

Trước hết, tồn tại vấn đề tối ưu không lồi trong huấn luyện mạng nơ-ron, hiện nay hầu hết các điểm hội tụ qua huấn luyện đều là lời giải tối ưu cục bộ hơn là lời giải tối ưu toàn cục. Do đó, chúng ta cần xác minh mức độ mà mạng lưới thần kinh được đào tạo, điều này không thể xác minh được bằng các tài nguyên máy tính hiện có.

Khó khăn thứ hai là huấn luyện mô hình lớn thường chỉ huấn luyện một hoặc hai kỷ nguyên, trong khi ở mô hình CNN trước đó, huấn luyện ResNet có 90 kỷ nguyên, thậm chí huấn luyện học tự giám sát cũng có 1000 kỷ nguyên nên mô hình lớn chỉ huấn luyện một hoặc hai kỷ nguyên. Phương pháp này tương đương với việc chỉ duyệt qua tập dữ liệu một hoặc hai lần và độ hội tụ càng không đủ. Do đó, trong trường hợp chi phí đào tạo cao như vậy, chúng ta khó có thể xác minh được liệu mô hình có 1 nghìn tỷ tham số hay mô hình có 2 nghìn tỷ tham số là tốt hơn, vì tiềm năng của chúng chưa được khai thác hết qua các thử nghiệm. Vì vậy, tôi nghĩ rằng mô hình lớn AI ngày nay là một chủ đề thử nghiệm, làm thế nào để nâng cao hiệu quả hiệu quả của thử nghiệm này và giảm chi phí sẽ đóng một vai trò cơ bản trong việc phổ biến toàn ngành.

Trở lại thực tế, tại sao ngày nay mọi người đều theo đuổi những người mẫu lớn? Từ góc độ logic toán học, tham số mô hình càng lớn thì hiệu quả càng tốt, mang tính tuyệt đối.

Đồng thời, chi phí tiếp tục tăng. Hiện nay, việc đào tạo các mô hình lớn cần hàng trăm, hàng nghìn, thậm chí hàng chục nghìn GPU, làm thế nào để giảm hơn nữa chi phí cho hàng chục nghìn GPU là một thách thức rất lớn.

20 năm trước, do dựa vào tần số chính lúc bấy giờ nên tất cả các chương trình đều là nối tiếp, giả sử tốc độ phần cứng tăng lên 10 lần thì tốc độ chạy cũng có thể tăng lên 10 lần mà không cần thay đổi một dòng mã nào. . Nhưng ngày nay, nếu bạn muốn tăng tốc mã của mình lên gấp 10 lần, giả sử phần cứng đã nhanh hơn gấp 10 lần rồi, nhưng nếu bạn không tối ưu hóa mã thì có lẽ nó sẽ chậm hơn. Lý do là trong trường hợp máy lớn hơn, chẳng hạn như bên trong GPU, việc di chuyển dữ liệu giữa bộ nhớ GPU và CPU hoặc chuyển động dữ liệu giữa các GPU, cộng với việc di chuyển dữ liệu do máy chủ thực hiện, sẽ chiếm phần lớn toàn bộ hệ thống Thời gian, phần lớn thời gian được dành cho việc di chuyển dữ liệu và khả năng mở rộng của mô hình sẽ trở nên kém.

Tôi nghĩ rằng trong tương lai, một phần mềm phân tán tốt và một phần mềm phân tán kém có thể có tốc độ chênh lệch gấp 10 lần trên hàng nghìn GPU, thậm chí 500 GPU.

**Colossal-AI hoạt động như thế nào? **

Dựa trên những thách thức trên, chúng tôi đề xuất một hệ thống đào tạo mô hình lớn Colossal-AI, cung cấp các phương pháp tối ưu hóa, giảm chi phí di chuyển dữ liệu và tối đa hóa hiệu quả của khả năng mở rộng mô hình.

Một số liệu cụ thể cho thấy việc sử dụng PyTorch đơn giản nhất để huấn luyện GPT-3 tiêu tốn 10 triệu đô la Mỹ, sau khi Nvidia được tối ưu hóa, chi phí có thể giảm xuống còn 3 triệu đô la Mỹ với Megatron và sau khi sử dụng Colossal-AI, chi phí có thể giảm xuống tới 1,3 triệu USD. Có thể thấy, trong cùng điều kiện thiết bị, việc giảm thiểu di chuyển dữ liệu sẽ giảm tỷ lệ di chuyển dữ liệu xuống mức thấp nhất và có thể mở rộng thông lượng GPU lên điểm cao nhất.

Để giải quyết các vấn đề trên, Colossal-AI đề xuất ba cấp độ. Phần mềm tương tự khác cũng bao gồm ba cấp độ này.

Lớp đầu tiên là tối ưu hóa bộ nhớ, trước tiên phải đảm bảo hiệu suất bộ nhớ của một GPU và một máy chủ là cao nhất, đây là nền tảng.

Cấp độ thứ hai là song song N chiều. Khi chúng ta hiện đang sử dụng hàng nghìn, hàng vạn GPU thì công nghệ cốt lõi là Parallel Computing (điện toán song song). Từ 1 GPU đến 10 GPU, do quy mô tương đối nhỏ nên chúng ta có thể dễ dàng tăng tốc gấp 7 lần; từ 10 đến 100 GPU, chúng ta chỉ có thể tăng tốc gấp 4 lần, vì quy mô song song trở nên lớn hơn và giao tiếp của nó Giá đã tăng hướng lên. Và từ 100 GPU lên 1000 GPU, do chi phí truyền thông còn tăng cao hơn nên có khả năng chỉ tăng tốc gấp 2 lần. Và từ 1.000 GPU lên 10.000 GPU, nếu phần mềm chạy kém, nó không những không tăng tốc mà thậm chí có thể chậm hơn do thiết bị dành toàn bộ thời gian cho giao tiếp mật độ cao hơn.

Thứ hai là vấn đề tối ưu hóa. Tôi nghĩ có hai lớp đối với hướng phát triển của mô hình lớn AI trong tương lai. Lớp thứ nhất là làm cho mô hình trở nên thông minh hơn và thiết kế cấu trúc tốt hơn. Ví dụ: từ BERT đến GPT, hoặc từ ResNet sang BERT, v.v. Nó không ngừng cố gắng thay đổi cấu trúc mô hình.

Ngoài ra, còn có những cải tiến về phương pháp tối ưu hóa, từ việc chuyển đổi từ SGD sang MOMENTUM, ADAGRAD và ADAM hiện nay, việc có các phương pháp tối ưu hóa tốt hơn có thể tăng hiệu quả lên gấp 10 lần trong tương lai cũng rất quan trọng.

Cụ thể cho bài toán song song đào tạo mô hình lớn trong thực tế.

Đầu tiên là song song dữ liệu, đây là phương pháp song song đơn giản và hiệu quả nhất. Song song dữ liệu có nghĩa là giả sử có 10.000 ảnh thì mỗi chu kỳ xử lý 1.000 ảnh, nếu có 10 máy thì mỗi máy được cấp 100 ảnh và tất cả các ảnh đều có thể được xử lý trong 10 chu kỳ.

Trong quá trình song song dữ liệu, cần phải tóm tắt, mỗi máy sử dụng dữ liệu khác nhau để thu được các độ dốc khác nhau, máy học các thay đổi khác nhau trên các dữ liệu khác nhau, cập nhật độ dốc tham số và cuối cùng tính toán độ dốc toàn cầu. và sử dụng tính trung bình, hiệu quả rất tốt. Trước đây, phương pháp LARS của Colossal-AI trong song song dữ liệu đã rút ngắn thời gian đào tạo của ImageNet từ một giờ xuống còn một phút cho Google, Meta, Tencent, Sony và các công ty khác.

Song song dữ liệu là cơ bản nhất và ổn định nhất. Sau khi phân chia dữ liệu, giả sử trong tương lai có 10.000 GPU, rất dễ xảy ra trường hợp cứ vài giờ lại có 4 hoặc 5 GPU gặp sự cố, vận hành và duy trì một cụm 10.000 GPU rất khó nhưng tính ổn định của tính song song dữ liệu Điểm mấu chốt là ngay cả khi có khoảng 10.000 GPU bị hỏng thì kết quả chung sẽ không thay đổi, vì đó là tính tổng gradient và tính trung bình.

Dựa trên sự cân nhắc này, tôi nghĩ song song dữ liệu là cơ sở hạ tầng cơ bản.

Tất nhiên, chỉ song song dữ liệu thôi là chưa đủ, lý do là vì song song dữ liệu có giả định rằng mô hình phải được sao chép đến từng GPU hoặc máy chủ và máy chủ hoặc GPU sẽ trao đổi độ dốc. Tuy nhiên, nếu GPU chỉ có bộ nhớ 80G, một mô hình có hàng nghìn tỷ tham số cần tới hàng chục terabyte bộ nhớ, không thể lưu trữ trong GPU, cần phải cắt mô hình thành các GPU khác nhau rồi tổng hợp kết quả. Cách tiếp cận này được gọi là mô hình song song. Có hai loại song song mô hình, loại thứ nhất là song song tensor, tức là song song mô hình trong một lớp. Ví dụ: số lớp của GPT-3 là khoảng 80 hoặc 90 lớp, mô hình được cắt một lần cho mỗi lớp và phép tính trong lớp được chia thành nhiều phần, sau khi tính một lớp, lớp tiếp theo sẽ được tính. , v.v.. Đây là sự song song tensor.

Một cách khác là Song song đường ống (Pipeline Parallelism), một mô hình song song giữa song song dữ liệu và song song tensor. Bằng cách xây dựng một số ống dữ liệu (đường ống), các điểm dữ liệu của mỗi ống dữ liệu là khác nhau, tương đương với việc chia một kích thước lớn thành nhiều kích thước nhỏ và việc tính toán đường ống được thực hiện theo cách này. Nếu có 10 ống, 10 ống đại diện cho 10 bộ dữ liệu khác nhau, ống thứ nhất tính toán dữ liệu của lớp đầu tiên, ống thứ hai tính toán lớp thứ hai... song song theo cách này, tương tự như tòa nhà của chúng ta Tương tự, 10 kỹ thuật các đội xây dựng 1000 tầng, khi đội kỹ thuật thứ nhất đang xây dựng tầng một của tòa nhà thứ nhất, đội kỹ thuật thứ hai đang xây dựng tầng hai của tòa nhà thứ hai, v.v.

Càng có nhiều tòa nhà thì tỷ lệ giữa tòa nhà và đội kỹ thuật càng cao và hiệu quả càng cao, tương đương với 10 đội kỹ thuật hoạt động cùng lúc. Mỗi nhóm kỹ thuật tương đương với một GPU, mỗi tòa nhà tương đương với một đường ống và số lớp của tòa nhà tương đương với số lớp của mạng lưới thần kinh, đây là logic cốt lõi của tính song song của đường ống.

Hiện tại, ngành đã thực hiện các công việc liên quan, ngoài Colossal-AI còn có TensorRT của NVIDIA và DeepSpeed của Microsoft, cũng là hai công ty có rào cản kỹ thuật cao nhất.

Nhưng điều khiến Colossal-AI khác biệt đó là Colossal-AI tập trung vào hướng phát triển các mô hình lớn trong tương lai. Có thể thấy, mô hình hiện tại vẫn đang ngày càng rộng hơn chứ không phải sâu hơn và tính song song tensor sẽ quan trọng hơn, nhưng nhược điểm lớn nhất của nó là do cắt toàn bộ lớp nên chi phí truyền thông quá lớn. Đây là lý do tại sao CEO của Nvidia giải thích cụ thể vấn đề chi phí liên lạc quá lớn khi giới thiệu tính năng song song 3D tại hội nghị thượng đỉnh GTC lần đầu tiên và nó chỉ có thể được thực hiện trong một máy chủ. Do đó, Colossal-AI tập trung vào song song tensor 2D và song song tensor 2,5D, giúp giảm chi phí tính toán xuống một mức độ lớn.

Điều này có nghĩa là với song song tensor một chiều, mỗi máy cần xử lý 9999 máy trong số 10.000 máy, trong khi song song tensor 2D chia nó thành các đơn vị con và mỗi máy chỉ cần xử lý 96 máy. Logic cốt lõi của nó là sử dụng một số đồng bộ hóa cục bộ (đồng bộ hóa cục bộ) để thay thế đồng bộ hóa toàn cầu (đồng bộ hóa toàn cầu) và nhiều giao tiếp cục bộ hơn để thay thế giao tiếp toàn cầu.Trong quá trình này, lập kế hoạch thiết kế là khó khăn nhất.

Điều này cũng đúng đối với sự song song tensor 3D. Mỗi khi một chiều được nâng lên, độ phức tạp trong thiết kế của nó sẽ tăng theo một bậc độ lớn và độ phức tạp trong giao tiếp cuối cùng sẽ giảm xuống.

Về mặt tối ưu hóa bộ nhớ, việc đào tạo mô hình lớn AI hiện nay đòi hỏi rất nhiều chi phí bộ nhớ, ngay cả khi bạn không làm gì, bạn vẫn cần vài terabyte bộ nhớ. Nếu không thực hiện can thiệp thủ công, một khi bạn sử dụng nó , bạn có thể cần hàng chục, thậm chí hàng trăm terabyte bộ nhớ.

Để làm cho hiệu quả dự đoán của mô hình tốt hơn, chúng ta thường cần dữ liệu chuỗi dài.Bản chất của mô hình lớn hiện tại là dự đoán xác suất của từ tiếp theo thông qua đầu ra của một từ và dữ liệu chuỗi dài chỉ là cần thiết. Về vấn đề này, Colossal-AI cũng đưa ra Sequence Parallelism (song song trình tự).

Cụ thể, sau khi cắt chuỗi, bạn sẽ gặp phải một vấn đề nghiêm trọng: khi thực hiện điểm chú ý, mỗi mã thông báo cần được đánh giá với các mã thông báo khác trong chuỗi chung và chỉ một phần mã thông báo nằm trên máy chủ sau khi tách và các mã thông báo khác nhau sẽ được phân phối trên các máy chủ khác, do đó mỗi máy chủ cần xử lý các máy chủ khác để chạy.

Có nghĩa là, giả sử hôm nay 200 người trong phòng mỗi người lấy một gói đồ ăn nhẹ, tôi hy vọng rằng mọi người có thể nếm thử đồ ăn nhẹ của những người khác, và cần ít nhất 200 lần trao đổi vuông để cho phép mọi người nếm thử đồ ăn nhẹ của người khác. đồ ăn nhẹ. Vậy thì cách dễ nhất là: mọi người xếp thành một vòng tròn, mọi người chuyền đồ ăn nhẹ đã ăn cho người bên phải và nhận đồ ăn nhẹ từ bên trái, chỉ n-1 lần, tức là 199 lượt Kết thúc. Qua đó giảm chi phí truyền thông tổng thể.

Tóm lại, nền tảng công nghệ cốt lõi hiện tại dành cho đào tạo mô hình lớn AI thực sự là tính toán song song, bởi vì chúng ta phải xử lý hàng trăm nghìn lõi GPU và sử dụng song song tất cả các GPU. Song song dữ liệu, song song tensor, song song đường ống và song song chuỗi dữ liệu là các mô-đun cốt lõi trong song song.

Về mặt tối ưu hóa bộ nhớ, chúng ta hiện đang ở trong một môi trường không có nhiều sự lựa chọn, GPU Nvidia là tốt nhất và dường như chúng ta không có giải pháp nào khác tốt hơn để thay thế nó. Nhưng điều mấu chốt là bộ nhớ của GPU Nvidia có hạn. Trong trường hợp này, chúng ta có thể nghĩ cách sử dụng bộ nhớ CPU và bộ nhớ NVMe không? Ý tưởng cốt lõi là nếu bộ nhớ GPU không thể lưu trữ được thì nó sẽ bị di chuyển vào CPU, nếu CPU không lưu trữ được thì sẽ đặt trên NVMe. Nói chung, khi xây dựng một tòa nhà, những nguyên liệu thô cần thiết không thể đưa xuống công trường ở tầng dưới nên chúng ta để ở nhà máy bên cạnh . Cốt lõi công nghệ của nó cũng là giảm thiểu chuyển động dữ liệu, tức là giảm thiểu chuyển động dữ liệu giữa CPU và GPU, đồng thời tăng cường chuyển động dữ liệu giữa CPU và NVMe, từ đó tăng tốc độ thông lượng lên cao nhất.

Đi theo nguồn mở

Colossal-AI là phần mềm mã nguồn mở, đồng thời chúng tôi cũng xây dựng nền tảng thương mại, đối với người dùng không có GPU, họ có thể trực tiếp đào tạo và triển khai các mô hình lớn của riêng mình trên nền tảng này. Chúng tôi cũng cung cấp nhiều mô hình khác nhau như LLaMA, PaLM và GPT và chỉ mất hai hoặc ba ngày để hoàn thành việc tinh chỉnh mô hình một cách nhanh nhất. So với những người dùng trước đây có thể cần hàng tuần hoặc thậm chí hàng tháng để xử lý cơ sở hạ tầng như phần cứng và phần mềm, hiệu quả đã được cải thiện rất nhiều. Đồng thời, Colossal-AI cũng bảo vệ quyền riêng tư của người dùng, nền tảng sẽ không giữ lại hoặc truy cập dữ liệu người dùng, đây là điểm khác biệt cơ bản giữa Colossal-AI và OpenAI ChatGPT. Khi chúng tôi tải dữ liệu lên Google Cloud, trong nhiều trường hợp, Google không chạm vào dữ liệu của chúng tôi, nhưng OpenAI GPT sẽ phân tích dữ liệu đó và các rủi ro như mô hình AI không thể giải thích được và quá trình đào tạo không đầy đủ là phổ biến. Vì vậy, trong tương lai, nhiều công ty sẽ đào tạo các mô hình lớn của riêng mình, những gì Colossal-AI làm là tối đa hóa việc bảo vệ quyền riêng tư của người dùng đồng thời cung cấp các công cụ để đào tạo mô hình lớn.

Về hiệu suất, Colossal-AI có thể đào tạo một mô hình lớn hơn 24 lần trên cùng một phần cứng, nhanh hơn 3 lần so với DeepSpeed, ngay cả máy chủ cấp thấp cũng có thể sử dụng Colossal-AI để hoàn thành quá trình đào tạo mô hình tương ứng. Ví dụ: để huấn luyện LLaMA-65B, sử dụng cùng một mã trên Colossal-AI có thể trực tiếp đạt được hiệu suất tăng tốc khoảng 50%.

Ví dụ, một sự tương tự đơn giản, bây giờ mô hình lớn là để đào vàng, và Nvidia đang bán xẻng, sau đó chúng tôi bán găng tay và quần áo, đồng thời tối đa hóa hiệu quả đào vàng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)