لقد تغيرت معايير نماذج الذكاء الاصطناعي بشكل كبير خلال السنوات القليلة الماضية. وأشار يو يانغ إلى أنه من عام 2016 إلى يناير 2021، زاد عدد معلمات نموذج الذكاء الاصطناعي بمقدار 40 مرة كل 18 شهرًا، ومن يناير 2018 إلى يناير 2021، زاد عدد معلمات نموذج الذكاء الاصطناعي الكبير يزداد نموذج اللغة كل 18 شهرًا 340 مرة. في المقابل، بين يناير 2016 ويناير 2021، ستزداد ذاكرة وحدات معالجة الرسومات بمقدار 1.7 مرة فقط كل 18 شهرًا.
يمكن ملاحظة أن تكلفة التدريب المرتفعة والدورة الطويلة هي أصعب المشكلات التي يجب التغلب عليها عند تطوير النماذج الكبيرة.
ردًا على هذه المشكلة، اقترح يو يانغ نظام Colossal-AI، بدءًا من المستويات الثلاثة لنظام الذاكرة عالي الكفاءة، والنظام المتوازي ثلاثي الأبعاد والتحسين واسع النطاق، من أجل تقليل حركة البيانات في ظل نفس ظروف المعدات و تعظيم إنتاجية وحدة معالجة الرسومات (GPU) إلى أعلى نقطة لها.
وأشار يو يانغ أيضًا إلى أن عدد معلمات النموذج في هذه المرحلة قد تم توسيعه بمقدار 100000 مرة، لكن عدد الطبقات لم يزد كثيرًا، مما قد يعني أن تطوير الذكاء الاصطناعي اليوم ربما لم يعد تعلمًا عميقًا، ولكنه دخل عصر التعلم الواسع. مع اتساع نطاق النموذج، في مواجهة مهام تدريب GPU واسعة النطاق وطويلة المدى، سيكون جوهر نظام تدريب النماذج الكبيرة هو كيفية تنفيذ الحوسبة المتوازية لوحدة معالجة الرسومات لتحقيق هدف نموذج كبير أسرع وأكثر فعالية من حيث التكلفة تمرين.
فيما يلي محتوى خطاب يو يانغ المباشر، والذي قام موقع Leifeng.com بتحريره وتنظيمه دون تغيير الهدف الأصلي:
الفرص والتحديات التي تواجه نماذج الذكاء الاصطناعي الكبيرة
أولا تظهر الصورة. الإحداثي في الرسم البياني هو الوقت، والإحداثي هو كمية المعلمة لنموذج الذكاء الاصطناعي.
من عام 2016 إلى يناير 2021، سيزيد حجم المعلمة لنموذج الذكاء الاصطناعي الكبير حوالي 40 مرة كل 18 شهرًا، ومن يناير 2018 إلى يناير 2021، سيزيد حجم المعلمة لنموذج الذكاء الاصطناعي 340 مرة كل 18 شهرًا.
وفي عام 2016، كان أفضل نموذج في العالم في ذلك الوقت هو ResNet-50، وأفضل نموذج اليوم هو GPT-4. من منظور الهندسة المعمارية، على الرغم من أن OpenAI لم تعلن عن بنية GPT-4، ولكن بالمقارنة مع الشبكة العصبية المكونة من 50 طبقة من ResNet-50 وبنية GPT-3، التي تحتوي على أقل من 100 طبقة، فيمكن القول أن عدد طبقات نموذج الذكاء الاصطناعي في السنوات الأخيرة لم يحدث الكثير من التغيير.
من ResNet-50 إلى GPT-4، على الرغم من زيادة عدد المعلمات بحوالي 100000 مرة، إلا أن كل طبقة أصبحت في الواقع أوسع. بما في ذلك إصدار LLaMA-65B، فهي أيضًا شبكة تحتوي على عشرات الطبقات.
لذلك قد لا نكون في مرحلة التعلم العميق، ولكننا دخلنا عصر التعلم الموسع.
يمكن ملاحظة أنه منذ عام 2019، قامت بنية Transformer بتوحيد مسار نموذج الذكاء الاصطناعي واسع النطاق بشكل أساسي، ونماذج الذكاء الاصطناعي واسعة النطاق الأكثر كفاءة حاليًا هي جميع بنيات Transformer. لا يُظهر الخطان المنقطان في الشكل أعلاه اتجاه التغيير لمعلمات النموذج الكبير فحسب، بل يُظهران أيضًا اتجاه التغيير في وحدة معالجة الرسومات.
على الرغم من أن سعر سهم Nvidia قد ارتفع عدة مرات الآن، إلا أن معدل نمو ذاكرة وحدة معالجة الرسومات للشركات المصنعة بما في ذلك Nvidia يتخلف كثيرًا عن سرعة تطوير النماذج الكبيرة.
بالمقارنة مع معدل نمو معلمات النموذج في السنوات الست الماضية، من يناير 2016 إلى يناير 2021، زاد معدل نمو الحوسبة لوحدات معالجة الرسومات NVIDIA بمقدار 1.7 مرة فقط كل 18 شهرًا.
خذ A100 80G كمثال لحساب مقدار الذاكرة المطلوبة لتدريب GPT-3. يحتوي GPT-3 على حوالي 175 مليار معلمة. لتسهيل الحساب، خذ عددًا صحيحًا قدره 200 مليار، وهو ما يساوي 200 في 10 إلى القوة التاسعة، وكل دقة واحدة تشغل 4 بايت، والمعلمات وحدها تشغل 800 جيجا من الذاكرة، ويشغل التدرج أيضًا 800 جيجا من الذاكرة. وفقًا لطريقة التحسين الحالية، يتم تخزين معلومات مثل اللحظة الأولى واللحظة الثانية في 800G. بمعنى آخر، إذا قمت بتدريب نموذج كبير لا يفعل شيئًا، فستحتاج على الأقل إلى بضعة تيرابايت من الذاكرة، كما أن وحدة معالجة الرسومات A100 واحدة بذاكرة 80 جيجا فقط ليست كافية على الإطلاق، بالإضافة إلى ذلك، كلما زاد حجم مجموعة النتائج الوسيطة ، كلما زاد الحمل على الذاكرة.
ولهذا السبب، من منظور الذاكرة، يتطلب تدريب النماذج الكبيرة آلاف وحدات معالجة الرسومات أولاً.
أعط مثالا قابلا للقياس. PaLM هو نموذج كبير بقيمة 540 مليار دولار، ووفقًا لسعر سوق الحوسبة السحابية الحالي، يحتاج تدريب PaLM إلى التعاقد مع ما لا يقل عن 1000 وحدة معالجة رسوميات، وتبلغ التكلفة حوالي أكثر من 9 ملايين دولار أمريكي. لقد ذكر Meta بوضوح من قبل أن LLaMA يحتاج إلى استخدام 2000 وحدة معالجة رسوميات A100، ويستغرق إكمال الجلسة التدريبية ثلاثة أسابيع. ومن هذا الحساب، يمكن استنتاج أن تكلفة جلسة تدريب واحدة من LLaMA تبلغ 5 ملايين دولار أمريكي.
ومع ذلك، نظرًا لأن تحسين النموذج الكبير لا يقتصر على جلسة تدريب واحدة، فقد يستغرق الأمر ما لا يقل عن خمسة أو ستة تكرارات لمنتج نموذج كبير جيد، والمرحلة المبكرة كلها عبارة عن تجربة وخطأ. لذلك، وفقًا لتحليل القناة العامة، تبلغ تكلفة الجلسة التدريبية الواحدة لـ GPT-4 حوالي 60 مليون دولار أمريكي، ويستغرق التدريب عدة أشهر على الأقل. ولهذا السبب، حتى لو تمت ترقية ChatGPT إلى الإصدار الأحدث، فإن الطبقة السفلية منه لا تزال هي نموذج إصدار سبتمبر 2021. بمعنى آخر، منذ سبتمبر 2021 حتى الوقت الحاضر، لم تقم OpenAI بتحديث منتجاتها بشكل أساسي، والسبب الأساسي هو أن تكلفة كل تدريب نموذجي ليست مرتفعة فحسب، بل إن دورة التدريب طويلة جدًا أيضًا، وبالتالي فإن التكلفة المرتفعة التدريب على النماذج الكبيرة مرتفع جدًا وخطير.
تخيل مشكلة، يوجد اليوم نموذج كبير يحتوي على تريليون معلمة و100 مليار معلمة، هل يمكننا استخدام أي طريقة لاكتشاف ما إذا كان النموذج الكبير الذي يحتوي على تريليون معلمة أفضل من النموذج الكبير الذي يحتوي على 100 مليار معلمة؟ بمعنى ما هو مدى الزيادة في عدد معلمات النموذج؟
أشعر حتى اليوم أنه لا يمكن الإجابة على هذا السؤال علميًا في الوقت الحالي. هناك عدة أسباب.
بادئ ذي بدء، هناك مشكلة التحسين غير المحدب في تدريب الشبكات العصبية، وفي الوقت الحاضر، فإن معظم النقاط المتقاربة عن طريق التدريب هي حلول مثلى محلية وليست حلولاً مثالية عالمية. لذلك، نحتاج إلى التحقق من مدى تدريب الشبكة العصبية، وهو ما لا يمكن التحقق منه باستخدام موارد الحوسبة الموجودة.
الصعوبة الثانية هي أن تدريب النموذج الكبير غالبًا ما يدرب عصرًا واحدًا أو عصرين فقط، بينما في نموذج CNN السابق، يحتوي تدريب ResNet على 90 عصرًا، وحتى تدريب التعلم الخاضع للإشراف الذاتي يحتوي على 1000 عصر، لذا فإن النموذج الكبير يدرب عصرًا واحدًا أو عصرين فقط. هذه الطريقة تعادل مراجعة مجموعة البيانات مرة أو مرتين فقط، والتقارب غير كافٍ. لذلك، في حالة ارتفاع تكلفة التدريب، يصعب علينا التحقق مما إذا كان النموذج الذي يحتوي على 1 تريليون معلمة أو النموذج الذي يحتوي على 2 تريليون معلمة أفضل، لأنه لم يتم استغلال إمكاناتهما بالكامل من خلال التجارب. لذلك، أعتقد أن نموذج الذكاء الاصطناعي الكبير اليوم هو موضوع تجريبي، وستلعب كيفية تحسين كفاءة هذه التجربة بشكل فعال وخفض التكاليف دورًا أساسيًا في تعميم الصناعة بأكملها.
بالعودة إلى الواقع، لماذا يلاحق الجميع عارضات الأزياء الكبيرة اليوم؟ من وجهة نظر المنطق الرياضي، كلما كانت معلمات النموذج أكبر، كان التأثير أفضل، وهو أمر مطلق.
وفي الوقت نفسه، استمرت التكاليف في الارتفاع. في الوقت الحاضر، يتطلب تدريب النماذج الكبيرة مئات أو آلاف أو حتى عشرات الآلاف من وحدات معالجة الرسومات. وتمثل كيفية تقليل تكلفة عشرات الآلاف من وحدات معالجة الرسومات تحديًا كبيرًا للغاية.
قبل 20 عامًا، نظرًا لاعتمادها على التردد الرئيسي في ذلك الوقت، كانت جميع البرامج تسلسلية، وبافتراض زيادة سرعة الأجهزة بمقدار 10 مرات، يمكن أيضًا زيادة سرعة التشغيل بمقدار 10 مرات دون تغيير سطر واحد من التعليمات البرمجية. لكن اليوم، إذا كنت تريد تسريع التعليمات البرمجية الخاصة بك بمقدار 10 مرات، بافتراض أن الجهاز أسرع بالفعل 10 مرات، ولكن إذا لم تقم بتحسين التعليمات البرمجية، فمن المحتمل أن تكون أبطأ بدلاً من ذلك. والسبب هو أنه في حالة وجود جهاز أكبر، كما هو الحال داخل وحدة معالجة الرسومات، فإن حركة البيانات بين ذاكرة وحدة معالجة الرسومات ووحدة المعالجة المركزية، أو حركة البيانات بين وحدات معالجة الرسومات، بالإضافة إلى حركة البيانات التي ينفذها الخادم، ستشغل معظم الوقت. وقت النظام بأكمله، يتم إنفاق معظم الوقت على حركة البيانات، وستصبح قابلية التوسع للنموذج ضعيفة.
أعتقد أنه في المستقبل، قد يكون هناك اختلاف في السرعة بين البرامج الموزعة الجيدة والبرامج الموزعة الرديئة بمقدار 10 مرات على آلاف وحدات معالجة الرسومات، أو حتى 500 وحدة معالجة رسوميات.
**كيف يعمل نظام Colossal-AI؟ **
بناءً على التحديات المذكورة أعلاه، نقترح نظام تدريب نموذجي كبير Colossal-AI، والذي يوفر طرق التحسين، ويقلل من تكلفة نقل البيانات، ويزيد من كفاءة قابلية توسيع النموذج.
تشير البيانات المحددة إلى أن استخدام أبسط PyTorch لتدريب GPT-3 يكلف 10 ملايين دولار أمريكي، وبعد تحسين Nvidia، يمكن تخفيض التكلفة إلى 3 ملايين دولار أمريكي مع Megatron، وبعد استخدام Colossal-AI، يمكن تقليل التكلفة إلى 1.3 مليون دولار. ويمكن ملاحظة أنه في ظل نفس ظروف المعدات، يؤدي تقليل حركة البيانات إلى تقليل نسبة حركة البيانات إلى أدنى مستوى، ويمكن أن يوسع إنتاجية وحدة معالجة الرسومات إلى أعلى نقطة.
استجابة للمشاكل المذكورة أعلاه، يقترح Colossal-AI ثلاثة مستويات. تتضمن البرامج المماثلة الأخرى أيضًا هذه المستويات الثلاثة.
الطبقة الأولى هي تحسين الذاكرة، أولاً التأكد من أن كفاءة الذاكرة لوحدة معالجة رسومات واحدة وخادم واحد هي الأعلى، هذا هو الأساس.
المستوى الثاني هو التوازي ذو الأبعاد N. عندما نستخدم حاليًا آلاف أو عشرات الآلاف من وحدات معالجة الرسومات، فإن التقنية الأساسية هي الحوسبة المتوازية (الحوسبة المتوازية). من 1 وحدة معالجة رسومات إلى 10 وحدات معالجة رسومات، نظرًا لصغر حجمها نسبيًا، يمكننا بسهولة الحصول على تسريع 7x؛ من 10 إلى 100 وحدة معالجة رسومات، قد نحصل على تسريع 4x فقط، لأن المقياس الموازي يصبح أكبر، واتصالاته قد انخفض السعر أعلى. ومن 100 وحدة معالجة رسومات إلى 1000 وحدة معالجة رسومات، نظرًا لزيادة تكلفة الاتصال، فمن المرجح أن تحصل على سرعة 2x فقط. وبالانتقال من 1000 وحدة معالجة رسوميات إلى 10000 وحدة معالجة رسوميات، إذا كان البرنامج يعمل بشكل سيئ، فقد لا يقتصر الأمر على تسريعه فحسب، بل قد يكون أبطأ أيضًا لأن الجهاز يقضي كل وقته في اتصالات ذات كثافة أعلى.
"الثانية هي مشكلة التحسين. أعتقد أن هناك طبقتين لاتجاه تطوير نموذج الذكاء الاصطناعي الكبير في المستقبل. الطبقة الأولى هي جعل النموذج أكثر ذكاءً وتصميم هيكل أفضل. على سبيل المثال، من BERT إلى GPT، أو من ResNet إلى BERT، وما إلى ذلك. وهي تحاول باستمرار تغيير بنية النموذج.
بالإضافة إلى ذلك، هناك تحسينات في أساليب التحسين، بدءًا من الانتقال من SGD إلى MOMENTUM وADAGRAD والآن ADAM، من المهم جدًا أيضًا الحصول على أساليب تحسين أفضل يمكنها زيادة الكفاءة بمقدار 10 مرات في المستقبل.
خاصة بالمشكلة الموازية المتمثلة في تدريب النماذج الكبيرة في الممارسة العملية.
الأول هو توازي البيانات، وهو الأسلوب المتوازي الأبسط والأكثر كفاءة. ويعني توازي البيانات أنه بافتراض وجود 10000 صورة، تتم معالجة 1000 صورة في كل دورة. وإذا كان هناك 10 أجهزة، فسيتم تخصيص 100 صورة لكل جهاز، ويمكن معالجة جميع الصور في 10 دورات.
في عملية توازي البيانات، يجب تلخيصها، يستخدم كل جهاز بيانات مختلفة للحصول على تدرجات مختلفة، تتعلم الآلة تغييرات مختلفة على بيانات مختلفة، وتحديث تدرج المعلمة، وأخيرا حساب التدرج العالمي، حاليا، طريقة الجمع وتم استخدام المتوسط، وكان التأثير جيدًا جدًا. في السابق، قامت طريقة LARS الخاصة بـ Colossal-AI في توازي البيانات بتقصير وقت تدريب ImageNet من ساعة واحدة إلى دقيقة واحدة لـ Google وMeta وTencent وSony وغيرها من الشركات.
توازي البيانات هو الأكثر أساسية والأكثر استقرارًا. بعد تقسيم البيانات، على افتراض أن هناك 10000 وحدة معالجة رسوميات في المستقبل، فمن السهل أن يحدث أن تتعطل أربع أو خمس وحدات معالجة رسوميات كل بضع ساعات، ومن الصعب تشغيل وصيانة مجموعة مكونة من 10000 وحدة معالجة رسومية، ولكن استقرار توازي البيانات النقطة المهمة هي أنه حتى لو كان هناك 10000 وحدة معالجة رسوميات تتعطل أكثر من اثنتي عشرة وحدة أو نحو ذلك، فإن النتيجة العامة لن تتغير، لأنها عبارة عن جمع متدرج ومتوسط.
وبناءً على هذا الاعتبار، أعتقد أن توازي البيانات هو بنية تحتية أساسية.
بالطبع، توازي البيانات وحده لا يكفي، والسبب هو أن توازي البيانات يفترض أنه يجب نسخ النموذج إلى كل وحدة معالجة رسومات أو خادم، وسيتبادل الخادم أو وحدة معالجة الرسومات التدرجات. ومع ذلك، إذا كانت وحدة معالجة الرسومات تحتوي على ذاكرة 80 جيجا فقط، فإن النموذج الذي يحتوي على تريليونات من المعلمات يتطلب عشرات تيرابايت من الذاكرة، والتي لا يمكن تخزينها في وحدة معالجة الرسومات، ومن الضروري تقسيم النموذج إلى وحدات معالجة رسومات مختلفة ثم تلخيص النتائج. ويسمى هذا النهج التوازي النموذجي. هناك نوعان من نماذج التوازي، الأول هو توازي الموتر، أي توازي النموذج داخل الطبقة. على سبيل المثال، يبلغ عدد طبقات GPT-3 حوالي 80 أو 90 طبقة، ويتم قطع النموذج مرة واحدة لكل طبقة، ويتم تقسيم الحساب في الطبقة إلى أجزاء متعددة، وبعد حساب طبقة واحدة يتم حساب الطبقة التالية وما إلى ذلك، وهذا هو التوازي الموتر.
هناك طريقة أخرى وهي توازي خطوط الأنابيب (توازي خطوط الأنابيب)، وهو نموذج للتوازي بين توازي البيانات وتوازي الموتر. من خلال إنشاء عدة أنابيب بيانات (خطوط الأنابيب)، تكون نقاط البيانات لكل أنبوب بيانات مختلفة، وهو ما يعادل تقسيم حجم كبير إلى أحجام صغيرة متعددة، ويتم إجراء حساب الأنابيب بهذه الطريقة. إذا كان هناك 10 أنابيب، 10 أنابيب تمثل عشر مجموعات من البيانات المختلفة، الأنبوب الأول يحسب بيانات الطبقة الأولى، والأنبوب الثاني يحسب الطبقة الثانية... وبهذه الطريقة، يكون موازيًا، مشابهًا للمبنى الذي لدينا. ، يقوم 10 فرق هندسية ببناء 1000 طابق، حيث يقوم الفريق الهندسي الأول ببناء الطابق الأول من المبنى الأول، ويقوم الفريق الهندسي الثاني ببناء الطابق الثاني من المبنى الثاني، وهكذا.
وكلما زاد عدد المباني، زادت النسبة بين المباني والفرق الهندسية، وارتفعت الكفاءة، أي ما يعادل 10 فرق هندسية تعمل في نفس الوقت. كل فريق هندسي يعادل وحدة معالجة الرسومات، وكل مبنى يعادل أنبوبًا، وعدد طبقات المبنى يعادل عدد طبقات الشبكة العصبية، وهو المنطق الأساسي لتوازي خطوط الأنابيب.
في الوقت الحاضر، قامت الصناعة بأعمال ذات صلة، بالإضافة إلى Colossal-AI، هناك أيضًا TensorRT من NVIDIA وDeepSpeed من Microsoft، وهما أيضًا الشركتان اللتان تتمتعان بأعلى الحواجز التقنية.
ولكن ما يجعل Colossal-AI مختلفًا عنه هو أن Colossal-AI يركز على اتجاه تطوير النماذج الكبيرة في المستقبل. يمكن ملاحظة أن النموذج الحالي لا يزال يتوسع، وليس أعمق، وسيكون توازي الموتر أكثر أهمية، ولكن أكبر عيب له هو أنه لأنه يقطع الطبقة بأكملها، فإن حمل الاتصال كبير جدًا. ولهذا السبب أوضح الرئيس التنفيذي لشركة Nvidia على وجه التحديد مشكلة الحمل الزائد للاتصالات عند تقديم التوازي ثلاثي الأبعاد في قمة GTC لأول مرة، ولا يمكن القيام بذلك إلا في خادم واحد. لذلك، يركز Colossal-AI على توازي الموتر ثنائي الأبعاد وتوازي الموتر 2.5D، مما يقلل من التكلفة الحسابية بمقدار أمر من حيث الحجم.
وهذا يعني أنه في حالة التوازي الموتر أحادي البعد، تحتاج كل آلة إلى التعامل مع 9999 آلة من بين 10000 آلة، بينما يقسمها التوازي الموتر ثنائي الأبعاد إلى وحدات فرعية، وتحتاج كل آلة فقط إلى التعامل مع 96 آلة في التعامل مع الآلات. منطقها الأساسي هو استخدام بعض التزامن المحلي (التزامن المحلي) ليحل محل التزامن العالمي (التزامن العالمي)، والمزيد من الاتصالات المحلية لاستبدال الاتصالات العالمية. في هذه العملية، تكون جدولة التصميم هي الأصعب.
وينطبق الشيء نفسه على التوازي الموتر ثلاثي الأبعاد، ففي كل مرة يتم فيها رفع البعد، فإن تعقيد تصميمه سيزيد بمقدار رتبة من حيث الحجم، وسيقل تعقيد الاتصال في النهاية.
فيما يتعلق بتحسين الذاكرة، يتطلب تدريب النموذج الكبير الحالي للذكاء الاصطناعي قدرًا كبيرًا من الذاكرة. حتى إذا لم تفعل أي شيء، فستظل بحاجة إلى بضعة تيرابايت من الذاكرة. إذا لم تقم بالتدخل اليدوي، بمجرد استخدامه ، قد تحتاج إلى عشرات أو حتى مئات التيرابايت من الذاكرة.
من أجل تحسين تأثير التنبؤ للنموذج، غالبًا ما نحتاج إلى بيانات تسلسل طويل.إن جوهر النموذج الكبير الحالي هو التنبؤ باحتمالية الكلمة التالية من خلال إخراج كلمة واحدة، وبيانات التسلسل الطويل هي فقط ضروري. وفي هذا الصدد، أطلقت Colossal-AI أيضًا تسلسل التسلسل (توازي التسلسل).
على وجه التحديد، بعد قطع التسلسل، ستواجه مشكلة خطيرة: عند تنفيذ درجة الانتباه، يجب تقييم كل رمز مميز برموز مميزة أخرى في التسلسل العام، ويكون جزء فقط من الرموز المميزة على الخادم بعد التقسيم، وستظهر رموز مميزة مختلفة يتم توزيعها على خوادم أخرى، بحيث يحتاج كل خادم إلى التعامل مع خوادم أخرى للتشغيل.
وهذا يعني أنه على افتراض أن 200 شخص في الغرفة أخذ كل منهم حزمة من الوجبات الخفيفة اليوم، آمل أن يتمكن الجميع من تذوق الوجبات الخفيفة لأي شخص آخر، ويلزم تبادل 200 مربع على الأقل للسماح للجميع بتذوق جميع الوجبات الخفيفة الخاصة بأشخاص آخرين. ثم الطريقة الأسهل هي: يشكل الجميع دائرة، ويمرر الجميع الوجبات الخفيفة التي تناولوها إلى الشخص الموجود على اليمين، ويحصلون على الوجبات الخفيفة من يسارهم، فقط n-1 مرات، أي 199 تمريرة نهائية. وبالتالي تقليل تكلفة الاتصالات الشاملة.
خلاصة القول، إن مجموعة التكنولوجيا الأساسية الحالية للتدريب على النماذج الكبيرة للذكاء الاصطناعي هي في الواقع حوسبة متوازية، لأنه يتعين علينا معالجة مئات الآلاف من نوى وحدة معالجة الرسومات واستخدام جميع وحدات معالجة الرسومات بالتوازي. تعد توازي البيانات، وتوازي الموتر، وتوازي خطوط الأنابيب، وتوازي تسلسل البيانات الوحدات الأساسية في التوازي.
فيما يتعلق بتحسين الذاكرة، فنحن حاليًا في بيئة لا يوجد بها الكثير من الخيارات، وتعتبر Nvidia GPU هي الأفضل، ولا يبدو أن لدينا أي حلول أخرى أفضل لتحل محلها. لكن المشكلة تكمن في أن ذاكرة وحدة معالجة الرسوميات Nvidia محدودة، فهل يمكننا في هذه الحالة التفكير في كيفية استخدام ذاكرة وحدة المعالجة المركزية وذاكرة NVMe؟ الفكرة الأساسية هي أنه إذا تعذر تخزين ذاكرة وحدة معالجة الرسومات، فسيتم نقلها إلى وحدة المعالجة المركزية، وإذا تعذر تخزين وحدة المعالجة المركزية، فسيتم وضعها على NVMe، بشكل عام، عند بناء مبنى، لا يمكن وضع المواد الخام اللازمة في موقع البناء في الطابق السفلي، لذلك نضعها في المصنع المجاور . يتمثل جوهر تقنيتها أيضًا في تقليل حركة البيانات، أي تقليل حركة البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسومات، وتعزيز حركة البيانات بين وحدة المعالجة المركزية وNVMe، وبالتالي زيادة سرعة الإنتاجية إلى أعلى مستوى.
التحول إلى المصادر المفتوحة
Colossal-AI هو برنامج مفتوح المصدر. وفي الوقت نفسه، قمنا أيضًا ببناء منصة تجارية. بالنسبة للمستخدمين الذين لا يملكون وحدة معالجة الرسومات، يمكنهم تدريب ونشر نماذجهم الكبيرة مباشرة على المنصة. نحن نقدم أيضًا نماذج مختلفة مثل LLaMA، وPaLM، وGPT، ولا يستغرق الأمر سوى يومين أو ثلاثة أيام لإكمال الضبط الدقيق للنموذج في أسرع وقت. بالمقارنة مع المستخدمين السابقين الذين قد يحتاجون لأسابيع أو حتى أشهر للتعامل مع البنية التحتية مثل الأجهزة والبرامج، فقد تم تحسين الكفاءة بشكل كبير. وفي الوقت نفسه، تحمي Colossal-AI أيضًا خصوصية المستخدمين، ولن تحتفظ المنصة ببيانات المستخدم أو تصل إليها، وهذا هو الفرق الأساسي بين Colossal-AI وOpenAI ChatGPT. عندما نقوم بتحميل البيانات إلى Google Cloud، لا تلمس Google بياناتنا في كثير من الحالات، ولكن OpenAI GPT ستحللها، وتشيع مخاطر مثل نماذج الذكاء الاصطناعي غير القابلة للتفسير والتدريب غير المكتمل. لذلك، ستقوم العديد من الشركات في المستقبل بتدريب نماذجها الكبيرة، ما تفعله Colossal-AI هو زيادة حماية خصوصية المستخدم إلى أقصى حد مع توفير أدوات لتدريب النماذج الكبيرة.
من حيث الأداء، يمكن لـ Colossal-AI تدريب نموذج أكبر بـ 24 مرة على نفس الجهاز، وهو أسرع بثلاث مرات من DeepSpeed، حتى الخادم المنخفض يمكنه استخدام Colossal-AI لإكمال تدريب النموذج المقابل. على سبيل المثال، بالنسبة لتدريب LLaMA-65B، يمكن أن يؤدي استخدام نفس الكود الموجود على Colossal-AI إلى الحصول مباشرة على كفاءة تسارع تبلغ حوالي 50%.
تشبيه بسيط، على سبيل المثال، الآن النموذج الكبير للتنقيب عن الذهب، وشركة Nvidia تبيع المجارف، ثم نبيع القفازات والملابس، وتعظيم كفاءة حفر الذهب.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
يو يانغ، جامعة سنغافورة الوطنية: كيف يمكن للذكاء الاصطناعي عالي الأداء أن يتطور؟
المصدر: لى فنغ نت
المؤلف: هوانغ نان
يمكن ملاحظة أن تكلفة التدريب المرتفعة والدورة الطويلة هي أصعب المشكلات التي يجب التغلب عليها عند تطوير النماذج الكبيرة.
ردًا على هذه المشكلة، اقترح يو يانغ نظام Colossal-AI، بدءًا من المستويات الثلاثة لنظام الذاكرة عالي الكفاءة، والنظام المتوازي ثلاثي الأبعاد والتحسين واسع النطاق، من أجل تقليل حركة البيانات في ظل نفس ظروف المعدات و تعظيم إنتاجية وحدة معالجة الرسومات (GPU) إلى أعلى نقطة لها.
وأشار يو يانغ أيضًا إلى أن عدد معلمات النموذج في هذه المرحلة قد تم توسيعه بمقدار 100000 مرة، لكن عدد الطبقات لم يزد كثيرًا، مما قد يعني أن تطوير الذكاء الاصطناعي اليوم ربما لم يعد تعلمًا عميقًا، ولكنه دخل عصر التعلم الواسع. مع اتساع نطاق النموذج، في مواجهة مهام تدريب GPU واسعة النطاق وطويلة المدى، سيكون جوهر نظام تدريب النماذج الكبيرة هو كيفية تنفيذ الحوسبة المتوازية لوحدة معالجة الرسومات لتحقيق هدف نموذج كبير أسرع وأكثر فعالية من حيث التكلفة تمرين.
فيما يلي محتوى خطاب يو يانغ المباشر، والذي قام موقع Leifeng.com بتحريره وتنظيمه دون تغيير الهدف الأصلي:
الفرص والتحديات التي تواجه نماذج الذكاء الاصطناعي الكبيرة
أولا تظهر الصورة. الإحداثي في الرسم البياني هو الوقت، والإحداثي هو كمية المعلمة لنموذج الذكاء الاصطناعي.
وفي عام 2016، كان أفضل نموذج في العالم في ذلك الوقت هو ResNet-50، وأفضل نموذج اليوم هو GPT-4. من منظور الهندسة المعمارية، على الرغم من أن OpenAI لم تعلن عن بنية GPT-4، ولكن بالمقارنة مع الشبكة العصبية المكونة من 50 طبقة من ResNet-50 وبنية GPT-3، التي تحتوي على أقل من 100 طبقة، فيمكن القول أن عدد طبقات نموذج الذكاء الاصطناعي في السنوات الأخيرة لم يحدث الكثير من التغيير.
من ResNet-50 إلى GPT-4، على الرغم من زيادة عدد المعلمات بحوالي 100000 مرة، إلا أن كل طبقة أصبحت في الواقع أوسع. بما في ذلك إصدار LLaMA-65B، فهي أيضًا شبكة تحتوي على عشرات الطبقات.
لذلك قد لا نكون في مرحلة التعلم العميق، ولكننا دخلنا عصر التعلم الموسع.
يمكن ملاحظة أنه منذ عام 2019، قامت بنية Transformer بتوحيد مسار نموذج الذكاء الاصطناعي واسع النطاق بشكل أساسي، ونماذج الذكاء الاصطناعي واسعة النطاق الأكثر كفاءة حاليًا هي جميع بنيات Transformer. لا يُظهر الخطان المنقطان في الشكل أعلاه اتجاه التغيير لمعلمات النموذج الكبير فحسب، بل يُظهران أيضًا اتجاه التغيير في وحدة معالجة الرسومات.
على الرغم من أن سعر سهم Nvidia قد ارتفع عدة مرات الآن، إلا أن معدل نمو ذاكرة وحدة معالجة الرسومات للشركات المصنعة بما في ذلك Nvidia يتخلف كثيرًا عن سرعة تطوير النماذج الكبيرة.
بالمقارنة مع معدل نمو معلمات النموذج في السنوات الست الماضية، من يناير 2016 إلى يناير 2021، زاد معدل نمو الحوسبة لوحدات معالجة الرسومات NVIDIA بمقدار 1.7 مرة فقط كل 18 شهرًا.
خذ A100 80G كمثال لحساب مقدار الذاكرة المطلوبة لتدريب GPT-3. يحتوي GPT-3 على حوالي 175 مليار معلمة. لتسهيل الحساب، خذ عددًا صحيحًا قدره 200 مليار، وهو ما يساوي 200 في 10 إلى القوة التاسعة، وكل دقة واحدة تشغل 4 بايت، والمعلمات وحدها تشغل 800 جيجا من الذاكرة، ويشغل التدرج أيضًا 800 جيجا من الذاكرة. وفقًا لطريقة التحسين الحالية، يتم تخزين معلومات مثل اللحظة الأولى واللحظة الثانية في 800G. بمعنى آخر، إذا قمت بتدريب نموذج كبير لا يفعل شيئًا، فستحتاج على الأقل إلى بضعة تيرابايت من الذاكرة، كما أن وحدة معالجة الرسومات A100 واحدة بذاكرة 80 جيجا فقط ليست كافية على الإطلاق، بالإضافة إلى ذلك، كلما زاد حجم مجموعة النتائج الوسيطة ، كلما زاد الحمل على الذاكرة.
ولهذا السبب، من منظور الذاكرة، يتطلب تدريب النماذج الكبيرة آلاف وحدات معالجة الرسومات أولاً.
ومع ذلك، نظرًا لأن تحسين النموذج الكبير لا يقتصر على جلسة تدريب واحدة، فقد يستغرق الأمر ما لا يقل عن خمسة أو ستة تكرارات لمنتج نموذج كبير جيد، والمرحلة المبكرة كلها عبارة عن تجربة وخطأ. لذلك، وفقًا لتحليل القناة العامة، تبلغ تكلفة الجلسة التدريبية الواحدة لـ GPT-4 حوالي 60 مليون دولار أمريكي، ويستغرق التدريب عدة أشهر على الأقل. ولهذا السبب، حتى لو تمت ترقية ChatGPT إلى الإصدار الأحدث، فإن الطبقة السفلية منه لا تزال هي نموذج إصدار سبتمبر 2021. بمعنى آخر، منذ سبتمبر 2021 حتى الوقت الحاضر، لم تقم OpenAI بتحديث منتجاتها بشكل أساسي، والسبب الأساسي هو أن تكلفة كل تدريب نموذجي ليست مرتفعة فحسب، بل إن دورة التدريب طويلة جدًا أيضًا، وبالتالي فإن التكلفة المرتفعة التدريب على النماذج الكبيرة مرتفع جدًا وخطير.
أشعر حتى اليوم أنه لا يمكن الإجابة على هذا السؤال علميًا في الوقت الحالي. هناك عدة أسباب.
بادئ ذي بدء، هناك مشكلة التحسين غير المحدب في تدريب الشبكات العصبية، وفي الوقت الحاضر، فإن معظم النقاط المتقاربة عن طريق التدريب هي حلول مثلى محلية وليست حلولاً مثالية عالمية. لذلك، نحتاج إلى التحقق من مدى تدريب الشبكة العصبية، وهو ما لا يمكن التحقق منه باستخدام موارد الحوسبة الموجودة.
الصعوبة الثانية هي أن تدريب النموذج الكبير غالبًا ما يدرب عصرًا واحدًا أو عصرين فقط، بينما في نموذج CNN السابق، يحتوي تدريب ResNet على 90 عصرًا، وحتى تدريب التعلم الخاضع للإشراف الذاتي يحتوي على 1000 عصر، لذا فإن النموذج الكبير يدرب عصرًا واحدًا أو عصرين فقط. هذه الطريقة تعادل مراجعة مجموعة البيانات مرة أو مرتين فقط، والتقارب غير كافٍ. لذلك، في حالة ارتفاع تكلفة التدريب، يصعب علينا التحقق مما إذا كان النموذج الذي يحتوي على 1 تريليون معلمة أو النموذج الذي يحتوي على 2 تريليون معلمة أفضل، لأنه لم يتم استغلال إمكاناتهما بالكامل من خلال التجارب. لذلك، أعتقد أن نموذج الذكاء الاصطناعي الكبير اليوم هو موضوع تجريبي، وستلعب كيفية تحسين كفاءة هذه التجربة بشكل فعال وخفض التكاليف دورًا أساسيًا في تعميم الصناعة بأكملها.
بالعودة إلى الواقع، لماذا يلاحق الجميع عارضات الأزياء الكبيرة اليوم؟ من وجهة نظر المنطق الرياضي، كلما كانت معلمات النموذج أكبر، كان التأثير أفضل، وهو أمر مطلق.
وفي الوقت نفسه، استمرت التكاليف في الارتفاع. في الوقت الحاضر، يتطلب تدريب النماذج الكبيرة مئات أو آلاف أو حتى عشرات الآلاف من وحدات معالجة الرسومات. وتمثل كيفية تقليل تكلفة عشرات الآلاف من وحدات معالجة الرسومات تحديًا كبيرًا للغاية.
قبل 20 عامًا، نظرًا لاعتمادها على التردد الرئيسي في ذلك الوقت، كانت جميع البرامج تسلسلية، وبافتراض زيادة سرعة الأجهزة بمقدار 10 مرات، يمكن أيضًا زيادة سرعة التشغيل بمقدار 10 مرات دون تغيير سطر واحد من التعليمات البرمجية. لكن اليوم، إذا كنت تريد تسريع التعليمات البرمجية الخاصة بك بمقدار 10 مرات، بافتراض أن الجهاز أسرع بالفعل 10 مرات، ولكن إذا لم تقم بتحسين التعليمات البرمجية، فمن المحتمل أن تكون أبطأ بدلاً من ذلك. والسبب هو أنه في حالة وجود جهاز أكبر، كما هو الحال داخل وحدة معالجة الرسومات، فإن حركة البيانات بين ذاكرة وحدة معالجة الرسومات ووحدة المعالجة المركزية، أو حركة البيانات بين وحدات معالجة الرسومات، بالإضافة إلى حركة البيانات التي ينفذها الخادم، ستشغل معظم الوقت. وقت النظام بأكمله، يتم إنفاق معظم الوقت على حركة البيانات، وستصبح قابلية التوسع للنموذج ضعيفة.
أعتقد أنه في المستقبل، قد يكون هناك اختلاف في السرعة بين البرامج الموزعة الجيدة والبرامج الموزعة الرديئة بمقدار 10 مرات على آلاف وحدات معالجة الرسومات، أو حتى 500 وحدة معالجة رسوميات.
**كيف يعمل نظام Colossal-AI؟ **
بناءً على التحديات المذكورة أعلاه، نقترح نظام تدريب نموذجي كبير Colossal-AI، والذي يوفر طرق التحسين، ويقلل من تكلفة نقل البيانات، ويزيد من كفاءة قابلية توسيع النموذج.
تشير البيانات المحددة إلى أن استخدام أبسط PyTorch لتدريب GPT-3 يكلف 10 ملايين دولار أمريكي، وبعد تحسين Nvidia، يمكن تخفيض التكلفة إلى 3 ملايين دولار أمريكي مع Megatron، وبعد استخدام Colossal-AI، يمكن تقليل التكلفة إلى 1.3 مليون دولار. ويمكن ملاحظة أنه في ظل نفس ظروف المعدات، يؤدي تقليل حركة البيانات إلى تقليل نسبة حركة البيانات إلى أدنى مستوى، ويمكن أن يوسع إنتاجية وحدة معالجة الرسومات إلى أعلى نقطة.
الطبقة الأولى هي تحسين الذاكرة، أولاً التأكد من أن كفاءة الذاكرة لوحدة معالجة رسومات واحدة وخادم واحد هي الأعلى، هذا هو الأساس.
المستوى الثاني هو التوازي ذو الأبعاد N. عندما نستخدم حاليًا آلاف أو عشرات الآلاف من وحدات معالجة الرسومات، فإن التقنية الأساسية هي الحوسبة المتوازية (الحوسبة المتوازية). من 1 وحدة معالجة رسومات إلى 10 وحدات معالجة رسومات، نظرًا لصغر حجمها نسبيًا، يمكننا بسهولة الحصول على تسريع 7x؛ من 10 إلى 100 وحدة معالجة رسومات، قد نحصل على تسريع 4x فقط، لأن المقياس الموازي يصبح أكبر، واتصالاته قد انخفض السعر أعلى. ومن 100 وحدة معالجة رسومات إلى 1000 وحدة معالجة رسومات، نظرًا لزيادة تكلفة الاتصال، فمن المرجح أن تحصل على سرعة 2x فقط. وبالانتقال من 1000 وحدة معالجة رسوميات إلى 10000 وحدة معالجة رسوميات، إذا كان البرنامج يعمل بشكل سيئ، فقد لا يقتصر الأمر على تسريعه فحسب، بل قد يكون أبطأ أيضًا لأن الجهاز يقضي كل وقته في اتصالات ذات كثافة أعلى.
"الثانية هي مشكلة التحسين. أعتقد أن هناك طبقتين لاتجاه تطوير نموذج الذكاء الاصطناعي الكبير في المستقبل. الطبقة الأولى هي جعل النموذج أكثر ذكاءً وتصميم هيكل أفضل. على سبيل المثال، من BERT إلى GPT، أو من ResNet إلى BERT، وما إلى ذلك. وهي تحاول باستمرار تغيير بنية النموذج.
بالإضافة إلى ذلك، هناك تحسينات في أساليب التحسين، بدءًا من الانتقال من SGD إلى MOMENTUM وADAGRAD والآن ADAM، من المهم جدًا أيضًا الحصول على أساليب تحسين أفضل يمكنها زيادة الكفاءة بمقدار 10 مرات في المستقبل.
خاصة بالمشكلة الموازية المتمثلة في تدريب النماذج الكبيرة في الممارسة العملية.
الأول هو توازي البيانات، وهو الأسلوب المتوازي الأبسط والأكثر كفاءة. ويعني توازي البيانات أنه بافتراض وجود 10000 صورة، تتم معالجة 1000 صورة في كل دورة. وإذا كان هناك 10 أجهزة، فسيتم تخصيص 100 صورة لكل جهاز، ويمكن معالجة جميع الصور في 10 دورات.
في عملية توازي البيانات، يجب تلخيصها، يستخدم كل جهاز بيانات مختلفة للحصول على تدرجات مختلفة، تتعلم الآلة تغييرات مختلفة على بيانات مختلفة، وتحديث تدرج المعلمة، وأخيرا حساب التدرج العالمي، حاليا، طريقة الجمع وتم استخدام المتوسط، وكان التأثير جيدًا جدًا. في السابق، قامت طريقة LARS الخاصة بـ Colossal-AI في توازي البيانات بتقصير وقت تدريب ImageNet من ساعة واحدة إلى دقيقة واحدة لـ Google وMeta وTencent وSony وغيرها من الشركات.
وبناءً على هذا الاعتبار، أعتقد أن توازي البيانات هو بنية تحتية أساسية.
بالطبع، توازي البيانات وحده لا يكفي، والسبب هو أن توازي البيانات يفترض أنه يجب نسخ النموذج إلى كل وحدة معالجة رسومات أو خادم، وسيتبادل الخادم أو وحدة معالجة الرسومات التدرجات. ومع ذلك، إذا كانت وحدة معالجة الرسومات تحتوي على ذاكرة 80 جيجا فقط، فإن النموذج الذي يحتوي على تريليونات من المعلمات يتطلب عشرات تيرابايت من الذاكرة، والتي لا يمكن تخزينها في وحدة معالجة الرسومات، ومن الضروري تقسيم النموذج إلى وحدات معالجة رسومات مختلفة ثم تلخيص النتائج. ويسمى هذا النهج التوازي النموذجي. هناك نوعان من نماذج التوازي، الأول هو توازي الموتر، أي توازي النموذج داخل الطبقة. على سبيل المثال، يبلغ عدد طبقات GPT-3 حوالي 80 أو 90 طبقة، ويتم قطع النموذج مرة واحدة لكل طبقة، ويتم تقسيم الحساب في الطبقة إلى أجزاء متعددة، وبعد حساب طبقة واحدة يتم حساب الطبقة التالية وما إلى ذلك، وهذا هو التوازي الموتر.
وكلما زاد عدد المباني، زادت النسبة بين المباني والفرق الهندسية، وارتفعت الكفاءة، أي ما يعادل 10 فرق هندسية تعمل في نفس الوقت. كل فريق هندسي يعادل وحدة معالجة الرسومات، وكل مبنى يعادل أنبوبًا، وعدد طبقات المبنى يعادل عدد طبقات الشبكة العصبية، وهو المنطق الأساسي لتوازي خطوط الأنابيب.
في الوقت الحاضر، قامت الصناعة بأعمال ذات صلة، بالإضافة إلى Colossal-AI، هناك أيضًا TensorRT من NVIDIA وDeepSpeed من Microsoft، وهما أيضًا الشركتان اللتان تتمتعان بأعلى الحواجز التقنية.
ولكن ما يجعل Colossal-AI مختلفًا عنه هو أن Colossal-AI يركز على اتجاه تطوير النماذج الكبيرة في المستقبل. يمكن ملاحظة أن النموذج الحالي لا يزال يتوسع، وليس أعمق، وسيكون توازي الموتر أكثر أهمية، ولكن أكبر عيب له هو أنه لأنه يقطع الطبقة بأكملها، فإن حمل الاتصال كبير جدًا. ولهذا السبب أوضح الرئيس التنفيذي لشركة Nvidia على وجه التحديد مشكلة الحمل الزائد للاتصالات عند تقديم التوازي ثلاثي الأبعاد في قمة GTC لأول مرة، ولا يمكن القيام بذلك إلا في خادم واحد. لذلك، يركز Colossal-AI على توازي الموتر ثنائي الأبعاد وتوازي الموتر 2.5D، مما يقلل من التكلفة الحسابية بمقدار أمر من حيث الحجم.
وينطبق الشيء نفسه على التوازي الموتر ثلاثي الأبعاد، ففي كل مرة يتم فيها رفع البعد، فإن تعقيد تصميمه سيزيد بمقدار رتبة من حيث الحجم، وسيقل تعقيد الاتصال في النهاية.
من أجل تحسين تأثير التنبؤ للنموذج، غالبًا ما نحتاج إلى بيانات تسلسل طويل.إن جوهر النموذج الكبير الحالي هو التنبؤ باحتمالية الكلمة التالية من خلال إخراج كلمة واحدة، وبيانات التسلسل الطويل هي فقط ضروري. وفي هذا الصدد، أطلقت Colossal-AI أيضًا تسلسل التسلسل (توازي التسلسل).
على وجه التحديد، بعد قطع التسلسل، ستواجه مشكلة خطيرة: عند تنفيذ درجة الانتباه، يجب تقييم كل رمز مميز برموز مميزة أخرى في التسلسل العام، ويكون جزء فقط من الرموز المميزة على الخادم بعد التقسيم، وستظهر رموز مميزة مختلفة يتم توزيعها على خوادم أخرى، بحيث يحتاج كل خادم إلى التعامل مع خوادم أخرى للتشغيل.
وهذا يعني أنه على افتراض أن 200 شخص في الغرفة أخذ كل منهم حزمة من الوجبات الخفيفة اليوم، آمل أن يتمكن الجميع من تذوق الوجبات الخفيفة لأي شخص آخر، ويلزم تبادل 200 مربع على الأقل للسماح للجميع بتذوق جميع الوجبات الخفيفة الخاصة بأشخاص آخرين. ثم الطريقة الأسهل هي: يشكل الجميع دائرة، ويمرر الجميع الوجبات الخفيفة التي تناولوها إلى الشخص الموجود على اليمين، ويحصلون على الوجبات الخفيفة من يسارهم، فقط n-1 مرات، أي 199 تمريرة نهائية. وبالتالي تقليل تكلفة الاتصالات الشاملة.
فيما يتعلق بتحسين الذاكرة، فنحن حاليًا في بيئة لا يوجد بها الكثير من الخيارات، وتعتبر Nvidia GPU هي الأفضل، ولا يبدو أن لدينا أي حلول أخرى أفضل لتحل محلها. لكن المشكلة تكمن في أن ذاكرة وحدة معالجة الرسوميات Nvidia محدودة، فهل يمكننا في هذه الحالة التفكير في كيفية استخدام ذاكرة وحدة المعالجة المركزية وذاكرة NVMe؟ الفكرة الأساسية هي أنه إذا تعذر تخزين ذاكرة وحدة معالجة الرسومات، فسيتم نقلها إلى وحدة المعالجة المركزية، وإذا تعذر تخزين وحدة المعالجة المركزية، فسيتم وضعها على NVMe، بشكل عام، عند بناء مبنى، لا يمكن وضع المواد الخام اللازمة في موقع البناء في الطابق السفلي، لذلك نضعها في المصنع المجاور . يتمثل جوهر تقنيتها أيضًا في تقليل حركة البيانات، أي تقليل حركة البيانات بين وحدة المعالجة المركزية ووحدة معالجة الرسومات، وتعزيز حركة البيانات بين وحدة المعالجة المركزية وNVMe، وبالتالي زيادة سرعة الإنتاجية إلى أعلى مستوى.
التحول إلى المصادر المفتوحة
Colossal-AI هو برنامج مفتوح المصدر. وفي الوقت نفسه، قمنا أيضًا ببناء منصة تجارية. بالنسبة للمستخدمين الذين لا يملكون وحدة معالجة الرسومات، يمكنهم تدريب ونشر نماذجهم الكبيرة مباشرة على المنصة. نحن نقدم أيضًا نماذج مختلفة مثل LLaMA، وPaLM، وGPT، ولا يستغرق الأمر سوى يومين أو ثلاثة أيام لإكمال الضبط الدقيق للنموذج في أسرع وقت. بالمقارنة مع المستخدمين السابقين الذين قد يحتاجون لأسابيع أو حتى أشهر للتعامل مع البنية التحتية مثل الأجهزة والبرامج، فقد تم تحسين الكفاءة بشكل كبير. وفي الوقت نفسه، تحمي Colossal-AI أيضًا خصوصية المستخدمين، ولن تحتفظ المنصة ببيانات المستخدم أو تصل إليها، وهذا هو الفرق الأساسي بين Colossal-AI وOpenAI ChatGPT. عندما نقوم بتحميل البيانات إلى Google Cloud، لا تلمس Google بياناتنا في كثير من الحالات، ولكن OpenAI GPT ستحللها، وتشيع مخاطر مثل نماذج الذكاء الاصطناعي غير القابلة للتفسير والتدريب غير المكتمل. لذلك، ستقوم العديد من الشركات في المستقبل بتدريب نماذجها الكبيرة، ما تفعله Colossal-AI هو زيادة حماية خصوصية المستخدم إلى أقصى حد مع توفير أدوات لتدريب النماذج الكبيرة.
من حيث الأداء، يمكن لـ Colossal-AI تدريب نموذج أكبر بـ 24 مرة على نفس الجهاز، وهو أسرع بثلاث مرات من DeepSpeed، حتى الخادم المنخفض يمكنه استخدام Colossal-AI لإكمال تدريب النموذج المقابل. على سبيل المثال، بالنسبة لتدريب LLaMA-65B، يمكن أن يؤدي استخدام نفس الكود الموجود على Colossal-AI إلى الحصول مباشرة على كفاءة تسارع تبلغ حوالي 50%.
تشبيه بسيط، على سبيل المثال، الآن النموذج الكبير للتنقيب عن الذهب، وشركة Nvidia تبيع المجارف، ثم نبيع القفازات والملابس، وتعظيم كفاءة حفر الذهب.