IOSG Ventures: من السيليكون إلى الذكاء، شرح تقنيات تدريب واستدلال الذكاء الاصطناعي بالتفصيل

星球日报

2024-08-06 04:34:00

مؤلف النص الأصلي: IOSG Ventures

IOSG Ventures：从硅到智能，详解人工智能训练与推理技术栈

تقوم التطورات السريعة في مجال الذكاء الاصطناعي على البنية التحتية المعقدة. تعتبر كومة تقنية الذكاء الاصطناعي هي هيكل تدرجي مكون من الأجهزة والبرمجيات، وهي الركيزة الأساسية لثورة الذكاء الاصطناعي الحالية. في هذا المجال، سنقوم بتحليل عميق للمستويات الرئيسية في تقنية الذكاء الاصطناعي، وسنوضح مساهمة كل مستوى في تطوير الذكاء الاصطناعي وتنفيذه. وفي النهاية، سنقوم بالتأمل في أهمية اكتساب هذه المعرفة الأساسية، خاصةً عند تقييم الفرص في مجال العملات الرقمية وتقاطعها مع التقنيات الذكاء الاصطناعي، مثل مشروع البنية الفيزيائية اللامركزية DePIN، على سبيل المثال شبكة GPU.

1. طبقة الأجهزة: أساس السيليكون

في الطبقة الأساسية هي الأجهزة، حيث يتم توفير القدرة الحسابية الفيزيائية للذكاء الاصطناعي.

CPU (وحدة المعالجة المركزية): هي معالجة الحاسوب الأساسية. إنها تتميز بمعالجة المهام التسلسلية وهي مهمة جدًا للحوسبة العامة ، بما في ذلك المعالجة المسبقة للبيانات والمهام الصغيرة للذكاء الاصطناعي وتنسيق المكونات الأخرى.
GPU (معالج الرسومات): تم تصميمه في البداية للرسومات ، ولكنه أصبح جزءًا مهمًا من الذكاء الاصطناعي بسبب قدرته على تنفيذ العديد من الحسابات البسيطة في نفس الوقت. تمكن هذه القدرة على المعالجة المتوازية GPU من أن يكون مناسبًا جدًا لتدريب نماذج العمق العميق ، ومن دون تطور GPU ، لن يكون من الممكن تحقيق نماذج GPT الحديثة.
مسرع الذكاء الاصطناعي: رقاقات مصممة خصيصًا لأعبار العمل الخاصة بالذكاء الاصطناعي، حيث تمت محسناتها لعمليات الذكاء الاصطناعي الشائعة، مما يوفر أداءً عالي الكفاءة لمهام التدريب والإستدلال.
FPGA( Field Programmable Gate Array )：يوفر المرونة بفضل خاصيته القابلة للبرمجة المتكررة. يمكن تحسينها لمهام الذكاء الاصطناعي المحددة، خاصة في حالات الاستدلال التي تتطلب وقت استجابة منخفض.

IOSG Ventures：从硅到智能，详解人工智能训练与推理技术栈

2. البرامج الأساسية: الوسيط

هذا الطبقة حاسمة في تكنولوجيا الذكاء الاصطناعي لأنها تبني جسراً بين الإطار العالي للذكاء الاصطناعي والأجهزة الأساسية. تقنيات مثل CUDA و ROCm و OneAPI و SNPE تعزز الروابط بين الإطارات العالية والهندسة المعمارية للأجهزة المحددة، مما يحقق أداءً محسنًا.

كون CUDA، كطبقة برمجيات خاصة بشركة NVIDIA، هو الأساس الذي يقوم عليه صعود الشركة في سوق الذكاء الاصطناعي. لا تعتمد مكانة NVIDIA الريادية فقط على ميزتها في مجال الأجهزة، بل تظهر أيضًا تأثير شبكتها القوية المتمثلة في تكامل البرمجيات والبيئة البيئية.

السبب في أن CUDA له تأثير كبير هو أنه يتم دمجه في تقنية الذكاء الاصطناعي ويوفر مجموعة كاملة من المكتبات المحسنة التي أصبحت في الواقع معيارًا في هذا المجال. بنى هذا النظام البيئي البرمجي تأثير شبكي قوي: ينشر الباحثون والمطورون الماهرون في CUDA استخدامهم أثناء التدريب في الأوساط الأكاديمية والصناعية.

أدى هذا إلى تعزيز دور نفيديا كزعيم في السوق ، حيث أصبحت الأدوات والمكتبات المعتمدة على CUDA أمرًا لا يمكن الاستغناء عنه للمتخصصين في الذكاء الاصطناعي.

هذا التكامل بين البرمجيات والأجهزة ليس فقط يعزز مكانة إنفيديا في مجال الحوسبة الذكية، بل يمنح الشركة قدرة هائلة على تحديد الأسعار، وهذا أمر نادر في سوق الأجهزة التجارية العامة.

يمكن تعزيتها لمجموعة من العوامل، والتي خلقت حواجز دخول ملحوظة، إلى السمعة السائدة لـ CUDA والصمت النسبي لمنافسيها. جعل الأولوية الرائدة لـ NVIDIA في مجال الحوسبة بتسريع وحدة المعالجة الرسومية CUDA قادرة على إنشاء بيئة قوية قبل أن يضع منافسوها أقدامهم عليها. على الرغم من أن منافسين مثل AMD و Intel يمتلكون أجهزة ممتازة، إلا أن طبقتهم البرمجية تفتقر إلى المكتبات والأدوات الضرورية، ولا يمكنهم دمج تقنياتهم بشكل سلس مع الستاكات التقنية الحالية، وهذا هو السبب في وجود فجوة كبيرة بين NVIDIA/CUDA وبين منافسيها الآخرين.

3. المترجم: المترجم

قدم TVM ( الآلة الافتراضية لترانسورمر الخاص بـ زانغ ) و MLIR ( تمثيل وسيط متعدد الطبقات ) و PlaidML حلولًا مختلفة للتحديات التي يواجهها تحميل عمليات الذكاء الاصطناعي عبر مجموعة متنوعة من البنيات الأساسية.

TVM يستند إلى البحث في جامعة واشنطن ، وقد حصلت بسرعة على متابعة لقدرتها على تحسين نماذج العمق العميق لمجموعة متنوعة من الأجهزة (من وحدات معالجة الرسومات ذات الأداء العالي إلى الأجهزة المحدودة الموارد على الحواف). إن ميزتها تكمن في عملية التحسين من النهاية إلى النهاية ، وهي فعالة بشكل خاص في سيناريوهات الاستدلال. إنه يجعل العبء العملي للتفكير قادرًا على العمل بسلاسة على أجهزة مختلفة ، سواء كانت أجهزة NVIDIA أو AMD أو Intel وما إلى ذلك ، من خلال التجريد الكامل لاختلافات البائع والأجهزة الأساسية.

ومع ذلك، خارج نطاق الاستدلال، تصبح الأمور أكثر تعقيدا. لا يزال من غير المحلول استبدال الأجهزة المدربة بالذكاء الاصطناعي للحسابات هذا الهدف النهائي. ومع ذلك، هناك عدة مبادرات تستحق الإشارة في هذا الصدد.

MLIR، مشروع Google، يعتمد أساليب أكثر أساسية. من خلال توفير تمثيل متوسط موحد لعدة مستويات مجردة، يهدف إلى تبسيط البنية الأساسية للمترجم بأكمله، لاستهداف حالات الاستدلال والتدريب.

PlaidML، الذي يقوده الآن إنتل، يصف نفسه بأنه فارس أسود في هذه المنافسة. إنه يركز على قابلية النقل عبر عدة هياكل H آردوير (بما في ذلك الهياكل الخارجية لتسريع الذكاء الاصطناعي التقليدي)، متوقعًا تشغيل أعباء العمل الذكاء الاصطناعي بسلاسة على مختلف منصات الحساب.

إذا كان بإمكان أي من هذه المترجمات دمج نفسه بشكل جيد في الكومة التكنولوجية دون التأثير على أداء النموذج أو الحاجة إلى أي تعديلات إضافية من قبل المطورين، فقد يكون هذا تهديدًا كبيرًا لسيطرة CUDA. ومع ذلك، حتى الآن، MLIR و PlaidML ليستا كافيتين من الناحية النضج ولم تتكامل بشكل جيد في كومة التكنولوجيا للذكاء الاصطناعي، وبالتالي فإنهما لا تشكلان تهديدًا واضحًا للمكانة الرائدة لـ CUDA.

IOSG Ventures：从硅到智能，详解人工智能训练与推理技术栈

4. الحوسبة الموزعة: المنسق

Ray و Horovod يمثلان طريقتين مختلفتين في مجال الذكاء الاصطناعي للحساب الموزع، حيث يحل كل منهما احتياجات مهمة للتوسع في تطبيقات الذكاء الاصطناعي بمقياس كبير.

Ray ، الإطار التوزيعي العام الذي تم تطويره بواسطة RISELab في جامعة كاليفورنيا بيركلي ، هو إطار عام للحوسبة الموزعة. يظهر قوة كبيرة في المرونة ، مما يسمح بتوزيع مجموعة متنوعة من أحمال العمل بغيرها من تعلم الآلة. يبسط النموذج القائم على الممثل في Ray عملية التوازي للرمز البايثوني بشكل كبير ، مما يجعله مثاليًا بشكل خاص لتعزيز التعلم ومهام الذكاء الاصطناعي الأخرى التي تتطلب سير عمل معقدة ومتنوعة.

Horovod، تم تصميمها أصلاً بواسطة Uber، مع التركيز على تنفيذ تعلم العمق الموزع. إنها توفر حلاً موجزًا وفعالًا لتوسيع عملية تدريب تعلم العمق على عدة وحدات معالجة الرسومات وخوادم عقدة. تتميز Horovod بسهولة استخدامها وبتحسين تدريب الشبكات العصبية المتوازية للبيانات، مما يجعلها قادرة على الاندماج بشكل مثالي مع إطارات تعلم العمق الرئيسية مثل TensorFlow وPyTorch، مما يتيح للمطورين توسيع كود التدريب الحالي بسهولة دون الحاجة إلى القيام بتعديلات شاملة على الكود.

5. الختام: من الأصول الرقمية الزاوية

تكامل مع كومة الذكاء الاصطناعي الحالية أمر حاسم لمشروع DePin الذي يهدف إلى بناء نظام حوسبة موزع. يضمن هذا التكامل التوافق مع سير العمل والأدوات الحالية للذكاء الاصطناعي ويسقط حاجز الدخول المطلوب.

في مجال العملات الرقمية، الشبكة الحالية لوحدات المعالجة المركزية هي في الأساس منصة تأجير بطاقة الرسوميات اللامركزية، وهذا يشكل خطوة أولى نحو البنية التحتية للذكاء الاصطناعي الموزعة الأكثر تعقيدًا. هذه المنصات تشبه أكثر السوق على غرار Airbnb بدلاً من العمل كسحابة موزعة. على الرغم من أنها مفيدة لبعض التطبيقات، فإن هذه المنصات لا تزال غير كافية لدعم التدريب الموزع الحقيقي، وهو متطلب رئيسي لتعزيز تطوير الذكاء الاصطناعي على نطاق واسع.

مثل Ray و Horovod ، ليست المعايير الحالية للحوسبة الموزعة مصممة للشبكات الموزعة العالمية ، ونحن بحاجة إلى تطوير إطار آخر على هذا المستوى للشبكات الموزعة الحقيقية. حتى بعض المشككين يرون أنه نظرًا لأن نموذج Transformer يحتاج إلى اتصال كثيف وتحسينات وظيفية عالمية في عملية التعلم ، فهي لا تتوافق مع أساليب التدريب الموزع. من ناحية أخرى ، يحاول المتفائلون تقديم إطارات حوسبة موزعة جديدة يمكن أن تعمل بشكل جيد مع الأجهزة الموزعة في جميع أنحاء العالم. Yotta هي إحدى الشركات الناشئة التي تحاول حل هذه المشكلة.

NeuroMesh يتقدم خطوة أخرى. إنه يعيد تصميم عملية التعلم الآلي بطريقة مبتكرة بشكل خاص. من خلال استخدام شبكة الترميز التنبؤية (PCN) للبحث عن التقليل المحلي للخطأ بدلاً من البحث مباشرة عن الحل الأمثل لوظيفة الخسارة العالمية، يحل NeuroMesh أحد العقبات الجذرية في تدريب الذكاء الاصطناعي الموزع.

هذا النهج ليس فقط تحقيقًا لتوازن غير مسبوق، بل يجعل أيضًا تدريب النماذج على أجهزة GPU للمستهلك (مثل RTX 4090) ممكنًا، مما يجعل تدريب الذكاء الاصطناعي ديمقراطيًا. على وجه التحديد، قدرة حسابية GPU 4090 مشابهة لـ H 100، ولكن بسبب نقص النطاق الترددي، لم يتم استغلالها بشكل كامل أثناء تدريب النماذج. بما أن PCN أسقط أهمية النطاق الترددي، فإن استخدام هذه الوحدات GPU ذات المستوى المنخفض يصبح ممكنًا، مما قد يؤدي إلى توفير تكاليف كبيرة وزيادة في الكفاءة.

GenSyn، شركة البداية الطموحة الأخرى في مجال التشفير الذكاء الصناعي، تهدف إلى بناء مترجم فخ. يسمح مترجم Gensyn باستخدام أي نوع من الأجهزة الحاسوبية بسلاسة لأعباء العمل الذكاء الصناعي. للمثال، تشبه دور TVM في الاستدلال، يحاول GenSyn بناء أدوات مماثلة لتدريب النماذج.

إذا نجحت، يمكن أن توسع بشكل كبير قدرة الذكاء الاصطناعي اللامركزي على الشبكة الحسابية من خلال استخدام متعدد الأجهزة بكفاءة لمعالجة المهام الأكثر تعقيدًا وتنوعًا للذكاء الاصطناعي. هذه الرؤية الطموحة، على الرغم من التحديات المعقدة والمخاطر التكنولوجية العالية التي تتسم بها تحسين هياكل الأجهزة المتنوعة، قد تضعف هذه التقنية حصون CUDA و NVIDIA في حالة تنفيذها لهذه الرؤية والتغلب على العقبات مثل الحفاظ على أداء نظم متنوعة.

بشأن الإستدلال: تجمع طريقة Hyperbolic بين الإستدلال القابل للتحقق وشبكة اللامركزية للموارد الحسابية المتنوعة، مما يعكس استراتيجية نسبياً عملية. من خلال استغلال معايير المترجم مثل TVM، يمكن لـ Hyperbolic الاستفادة من تكوينات الأجهزة الواسعة وفي الوقت نفسه الحفاظ على الأداء والموثوقية. يمكنها تجميع رقائق من مزودين مختلفين (من NVIDIA إلى AMD و Intel وغيرها)، بما في ذلك الأجهزة المستهلكة والأجهزة عالية الأداء.

هذا التشفير AI المتقاطع يشير إلى مستقبل حيث قد يصبح الحساب الذكي أكثر توزيعاً وكفاءة وقابلية للوصول. نجاح هذه المشاريع يعتمد ليس فقط على تفوقها التقني، ولكن أيضا على قدرتها على التكامل السلس مع سير العمل الحالية للذكاء الاصطناعي، وقدرتها على حل القضايا العملية لممارسي الذكاء الاصطناعي والشركات.

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات