يتولى AI Agent مسؤولية نموذج اللغة الكبير LLM وأصبح الموضوع الأكثر سخونة في دائرة الذكاء الاصطناعي.
في الوقت الحاضر، الوضع في دائرة رأس المال الاستثماري للذكاء الاصطناعي هو كما يلي تقريبًا:
Big Factory Club: يدعي الموظفون الداخليون في OpenAI أن وكيل الذكاء الاصطناعي هو الاتجاه الجديد لـ OpenAI؛ وتحاول Microsoft الترويج لمساعد الطيار والسماح للذكاء الاصطناعي بلعب دور المساعد، وهو سيناريو نموذجي لوكيل الذكاء الاصطناعي؛ أطلقت NVIDIA Voyager، ويمكن لعامل الذكاء الاصطناعي هذا كن مستقلاً اكتب التعليمات البرمجية للسيطرة على لعبة "Minecraft"؛ أطلقت SenseTime المحلية أيضًا وكيلًا عامًا للذكاء الاصطناعي؛ أطلقت Alibaba موظفًا رقميًا...
الدائرة الأكاديمية: في أبريل من هذا العام، أنشأت جامعة ستانفورد مدينة Westworld، مما سمح لـ 25 من عملاء الذكاء الاصطناعي بمحاكاة البشر في بيئة رملية للمدينة الافتراضية، والوقوع في الحب، والاحتفال، والتعاون، والمواعدة، وما إلى ذلك مع عملاء الذكاء الاصطناعي الآخرين. بالإضافة إلى ذلك، بدأ بعض العلماء في استخدام وكلاء الذكاء الاصطناعي لتصميم تجارب علمية معقدة، بما في ذلك قراءة الأوراق تلقائيًا عبر الإنترنت والبحث عن الأدوية المضادة للسرطان... هذه الاستكشافات المتطورة مذهلة.
دائرة ريادة الأعمال: AI Agent ليست مجرد لعبة لكبار العلماء، فقد ظهرت العديد من المشاريع مثل Camel، وAutoGPT، وBabyAGI، وAgentGPT، وهناك أيضًا عدد كبير من مطوري المجتمع مفتوح المصدر ورجال الأعمال الذين يستخدمون هذه المشاريع مفتوحة المصدر لإنشاء بعض الأدوات العملية.. على سبيل المثال، aomni هو تطبيق AI Agent يساعد المستخدمين على التقاط معلومات الشبكة وإرسالها عبر البريد الإلكتروني.
دائرة الاستثمار: يعتبر برنامج AI Agent بمثابة “بداية عصر الذكاء الاصطناعي العام (AGI)” واندلاعه أمر “حديدي”، وقال بعض رواد الأعمال في وادي السيليكون إنه عند الحديث مع المستثمرين عن الوكلاء التوليديين فإن الجميع يتطلع إلى الأمام. إليه وآمل أن يفهم أكثر، ويقترب، ويستجيب بشكل أسرع للانفجارات اللاحقة.
من هذه الأحكام، لا يزال من السابق لأوانه القول بأن "AI Agent قد فتح النصف الثاني من النماذج الكبيرة"، ولكن يجب أن يكون واضحًا أن "AI Agent هو المعيار التجاري للنماذج الكبيرة".
لذلك، يجب أن نرى بعد ذلك المزيد من الشركات المصنعة الكبرى والشركات الناشئة تتخذ المزيد من الإجراءات بشأن AI Agent.
إذًا، ما هو بالضبط وكيل الذكاء الاصطناعي؟ لماذا يقال أنه شرط ضروري لتسويق النماذج الكبيرة؟
النموذج الكبير متعجرف ومتغطرس، لكن المستخدمين ما زالوا لا يدفعون.
هنا نضع وكيل الذكاء الاصطناعي جانبًا أولاً ونلقي نظرة على شكل النموذج الكبير.
أعتقد أن معظم القراء يتفقون على أن النماذج الكبيرة هي شيء يتمتع برؤية عالية، واستثمار مرتفع، وعتبة عالية. ومن منظور عاطفي، من الممكن تحقيق الذكاء الاصطناعي العام وتغيير المجتمع بالكامل؛ ومن منظور علماني، فمن الممكن إعادة بناء الأعمال. المنتجات والسماح لشركات التكنولوجيا بارتفاع الأداء.
ولكن كل هذا يعتمد على حقيقة مفادها أن النماذج الكبيرة يمكن تسويقها تجاريا حقا، واسترداد تكاليف البحث والتطوير، وتحقيق تنمية صحية ومستدامة.
على مدى الأشهر القليلة الماضية، أصبح نموذجان من نماذج الأعمال للنماذج الكبيرة أكثر فعالية: أحدهما هو النشر المحلي المخصخص للنماذج الكبيرة من قبل الحكومات والمؤسسات في مختلف الصناعات؛ والآخر هو قوة الحوسبة المطلوبة لبيع النماذج الكبيرة من خلال السحابة وخوادم الذكاء الاصطناعي. الخ .
في الوقت الحاضر، أصدر المصنعون المحليون تقارير الأعمال المقابلة وحصلوا على عشرات الملايين من الإيرادات من الطلب على نشر الخصخصة في الصناعة.
ومع ذلك، لا يمكن لأعمال ToB وحدها أن تدعم نموذج أعمال واسع النطاق.
في الثورة التكنولوجية، يجب أن تتدفق التكنولوجيا الأساسية إلى الخارج وأن يستخدمها مليارات المستخدمين العاديين من أجل خلق قيمة اقتصادية. بعد أن أصبحت أجهزة الكمبيوتر المنزلية، والإنترنت، والهواتف الذكية شائعة بين الجماهير، ارتفعت القيمة السوقية للعديد من شركات التكنولوجيا.
في الوقت الحاضر، استثمر العمالقة الكثير من الموارد في تدريب النماذج الكبيرة، وخاصة النماذج الأساسية، والتي غالبًا ما يكون لها مقاييس معلمات تصل إلى مئات المليارات أو تريليونات، ويجب استخدامها من قبل المستخدمين الشاملين.
إذًا، ما هي تجربة التطبيق الفعلية؟
تتمتع سيناريوهات مثل الدردشة والرسم والإبداع بمعدل كبير لتحمل الأخطاء. حتى لو أجاب الذكاء الاصطناعي على السؤال بشكل غير صحيح، سيظل المستخدم يجده "لطيفًا". هذا الجزء من التطبيق معقد للغاية بالفعل، مثل " صورة معرف الذكاء الاصطناعي". في معظم السيناريوهات، هناك حاجة إلى الذكاء الاصطناعي لمساعدتك تلقائيا في التعامل مع المهام الأكثر خطورة، والتعاون مع الظروف البيئية الأخرى، والتعامل مع الأعمال طويلة الأجل والمستمرة. لا ترتكب الكثير من الأخطاء، وإلا فسيضطر الناس إلى المشاركة بأعداد كبيرة. ولا يمكن حقًا زيادة الإنتاجية.
من الواضح أن هذا النوع من السيناريوهات لا يمكن حله بشكل جيد من خلال نموذج كبير ومعقد للأغراض العامة في الوقت الحاضر.
خذ كاتبا مثلي كمثال، إذا تركت عارضة كبيرة تكتب لي مخطوطتي، فقد يكون لديها هلوسة، يجب أن أتحقق مرة أخرى من الأحداث / الأخبار / الصحف المذكورة، وهذا أكثر إزعاجا من البحث عن المعلومة بنفسي وهي ليست دقيقة بما فيه الكفاية. فعندما أتوصل إلى فكرة ما، يجب أن أستخدم كلمات سريعة تلهمني لفترة طويلة، وقد لا يكون هناك أي شيء يمكن استخدامه. فهو بطيء ومتعب، لذا قد أتمكن من ذلك. وكذلك أكتبها بنفسي.
إن عدم القدرة على إكمال المهام تلقائيًا في خطوة واحدة يتطلب تدخل عدد كبير من البشر في المراجعة، وهذا يمثل حاليًا صعوبة كبيرة في تطبيق النماذج الكبيرة في السيناريوهات الجادة، كما أنه يؤثر بشكل مباشر على تقدم تنفيذ النماذج الكبيرة وتسويقها .
كيف افعلها؟ إذا كانت النماذج الكبيرة ترغب في الأداء الجيد، فإنها تحتاج بشكل عاجل إلى مجموعة من المساعدين، وهم وكلاء الذكاء الاصطناعي.
تحرير الإنتاجية حقًا، لماذا يعد AI Agent رائعًا جدًا؟
تخيل فقط، إذا كان بإمكان نموذج كبير أن يعمل بمفرده 24 ساعة في اليوم، 7 أيام في اليوم، دون تدخل بشري، فيمكنه إكمال المهام المختلفة بنفسه. يحتاج الناس فقط إلى العودة إلى الكمبيوتر أو المكتب من حين لآخر لمعرفة كيف يعمل هذه هي الطريقة الصحيحة لفتح نموذج كبير.
في مؤتمر GPT-4، أثبتت OpenAI قدرتها على أتمتة بعض المهام، مثل السماح لـ GPT4 بالتعرف على الرسومات لإنشاء صفحات الويب، وتصحيح الأخطاء في التعليمات البرمجية الخاصة بها خطوة بخطوة.
ولكن كيف يمكن للمطورين والمستخدمين العاديين استخدام هذه الإمكانية؟ أجاب العديد من المطورين بأنه إذا كتبت تعليمات برمجية مباشرة باستخدام GPT4، فلا يزال يتعين عليك تصحيحها بنفسك، ولا يمكنك النظر إلى الصور لإنشاء تعليمات برمجية للاستخدام المباشر، وفي بعض الأحيان يكون من الأفضل عدم استخدامها.
تواجه الشركات المصنعة للنماذج الكبيرة أيضًا معضلة، لقد قمت بفتح واجهة برمجة التطبيقات (API)، لتحقيق المزيد من الإمكانات الاحترافية والدقيقة والمحسنة، يحتاج شخص ما إلى تطويرها بشكل أكبر، لذلك سلمت العصا إلى وكيل الذكاء الاصطناعي.
يعد AI Agent كيانًا آليًا للذكاء الاصطناعي في البيئة، وله أربع خصائص أساسية:
تحسس البيئة المحيطة من خلال أجهزة الاستشعار. يمكن أن تكون هذه البيئة افتراضية، مثل ألعاب وضع الحماية، وأنظمة تدريب المحاكاة، ومحاكيات القيادة الذاتية، وما إلى ذلك، أو يمكن أن تكون مادية، مثل الطرق والغرف وخطوط التجميع وما إلى ذلك.
قادر على اتخاذ القرارات بشكل مستقل.
يعمل المشغلون/المؤثرات معًا لاتخاذ الإجراءات اللازمة.
التعلم والتقدم يعتمد على تعظيم الأداء وتحسين النتائج.
من هذا المنظور، البشر أنفسهم هم في الواقع نوع من "العامل الذكي" AI Agent. يمكننا أن نشعر بالتغيرات في البيئة الخارجية من خلال أعيننا وآذاننا وجلدنا وما إلى ذلك، ثم نتخذ القرارات من خلال أدمغتنا، ونتحدث بأفواهنا، والمشي بأرجلنا، واتخاذ الإجراءات والتكيف بشكل مستمر مع البيئة الخارجية بناءً على ردود الفعل على المكافأة.
في الواقع، الوكلاء في الذكاء الاصطناعي لديهم نفس المنطق. خذ وكيل الذكاء الاصطناعي في سيناريو القيادة الذاتية كمثال. هناك حاجة إلى أجهزة استشعار لجمع المعلومات واستشعار العوامل البيئية مثل مركبات الطرق والمشاة. سيقوم النظام بعد ذلك تلقائيًا باتخاذ القرارات وتشغيل المسرعات والفرامل وغيرها من المعدات للاستجابة وفقًا لذلك .
يُعرف هذا أيضًا باسم نموذج PEAS لعامل الذكاء الاصطناعي. لنقم بعمل جدول بسيط لتتعرف عليه:
إذن، على النماذج الكبيرة على وجه التحديد، ما هو التأثير الذي يمكن أن يحققه AI Agent؟ لديها بشكل رئيسي الوظائف الرئيسية التالية:
أولا، تفكيك المهمة.
تحتاج النماذج الكبيرة إلى دمجها مع مجال معين، وتكون احتياجات المستخدم التي تواجهها عامة نسبيًا، وغالبًا ما تتضمن العملية خطوات متعددة. تمامًا كما يقول المستخدم "يجب أن يكون هناك ضوء"، فإن النموذج الكبير المعزول لا يعرف ما هي المصابيح الموجودة في البيئة، ولا يعرف كيفية التحكم فيها. لذلك، حتى مع النموذج الكبير، لا يمكنه التعامل مع هذا الأمر الذي يبدو بسيطًا ولكنها مهمة معقدة في الواقع.
يتمتع وكيل الذكاء الاصطناعي بقدرات تخطيط المهام ويمكنه أن يفهم ويقرر تلقائيًا كيفية تخطيط الخطوات وتخصيص الموارد وتحسين القرارات ثم إكمال التعليمات، مما يؤدي إلى تحسين كفاءة ودقة مهام معالجة النماذج الكبيرة.
في ورقة بحثية لفريق بحث Google Brain، طُلب من نموذج اللغة الكبير أن يتحدث علنًا عن عملية التفكير لتحليل خطوات المهمة، أي "المونولوج الداخلي"، ثم اتخاذ الإجراءات المقابلة، مما أدى فجأة إلى تحسين دقة إجابات النموذج الكبير، لقد حقق نتائج SOTA على مجموعات بيانات متعددة، مما أدى إلى تحسين هراء النماذج الكبيرة.
ثانيا، التنفيذ التلقائي.
تم تصميم AI Agent للتفكير والتصرف بشكل مستقل، ويحتاج المستخدمون فقط إلى تكليفه بمهمة والسماح له بالقيام بعمله. من الأمثلة النموذجية على AutoGPT هو طلب البيتزا. لا يحتاج المستخدم إلى إدخال العنوان أو اختيار النكهة. يعتني وكيل AI بجميع خطوات الطلب وينفذها تلقائيًا. يمكن للأشخاص المشاهدة من الجانب وتصحيحها في الوقت إذا تم ارتكاب أي أخطاء.
لا يستطيع AI Agent استخدام الإنترنت فحسب، بل يمكنه أيضًا العمل في البيئة المادية، والتحكم في الروبوتات لتقديم التوصيل السريع، والسيارات بدون سائق، والقيادة الذاتية، وما إلى ذلك.
باستخدام AI Agent، سيكون التفاعل بين المستخدمين والنماذج الكبيرة أكثر طبيعية وبساطة وسرعة، مما يقلل من المشاركة اليدوية ويحسن الجودة والكفاءة بشكل حقيقي. على سبيل المثال، في عالم اللعبة، يمكن لـ AI Agent أن يبدأ حوارًا مع اللاعبين تلقائيًا، ويوفر تفاعلًا مفتوحًا، ويصمم خطوط قصة لا حصر لها بناءً على تعليقات اللاعبين، مما يجعل اللعبة في متناول آلاف الأشخاص حقًا؛ في العالم المادي، AI Agent يمكنه إنشاء التعليمات والتشغيل تلقائيًا، وقيادة الجسم الميكانيكي، وتقديم خدمات التدبير المنزلي للبشر، وأتمتة العمليات في المصانع دون الاعتماد على التوجيه البشري.
ثالثا، حفظ الموارد.
مثل البشر، يمكن لوكلاء الذكاء الاصطناعي استخدام الأدوات، أي استدعاء واجهات برمجة التطبيقات (APIs)، للتعامل مع المهام الأكثر تعقيدًا، مما يوسع بشكل كبير قدرات النماذج الكبيرة ويقلل من الهدر والاستهلاك المفرط للموارد.
على سبيل المثال، عند كتابة التعليمات البرمجية لـ AutoGPT، تحتاج إلى الوصول إلى بيانات مصدر المعلومات الخاصة وموارد الحوسبة وما إلى ذلك. خلال هذه العملية، يمكن لعامل الذكاء الاصطناعي العثور تلقائيًا على واجهة برمجة التطبيقات المناسبة للاتصال بها، وبالتالي تجنب إهدار رموز واجهة برمجة التطبيقات الأخرى. يمكنك أيضًا التعلم بشكل مستقل وتحسين النتائج واستدعاء واجهة برمجة التطبيقات (API) مرة أخرى إذا لم تكن راضيًا.
بشكل عام، لإكمال تعليمات المستخدم غير الواضحة حقًا، مثل التخطيط للسفر، يحتاج النموذج إلى استدعاء واجهات برمجة التطبيقات المتعددة لحل المشكلة. لا شك أن وكلاء الذكاء الاصطناعي الذين يتمتعون بأتمتة قوية يمكنهم توفير الموارد، وبالتالي توفير التكاليف للمستخدمين، مما يسمح لتطبيقات الذكاء الاصطناعي بأن تكون أكثر جاذبية. وتنافسية.
رابعا، جذب المطورين.
بالنسبة لتسويق النماذج الكبيرة، يتطلب نموذج واجهة برمجة التطبيقات (API) مشاركة أكبر عدد ممكن من مجموعات المطورين، ويتطلب نموذج الصناعة أيضًا تكامل ISV، ومقدمي خدمات البرمجيات، وما إلى ذلك. يعلم الجميع أنه من الصعب الفوز بالنموذج الأساسي لمصنع كبير، ونأمل أن نجد فرصًا في تطبيقات المستوى الأعلى المقسمة. يمكن لـ AI Agent حل مشكلات محددة، وتحسين تأثيرات النماذج، وإدارة الأنظمة الرقمية والكيانات المادية، لذا فهو مناسب جدًا لبناء التطبيقات الفائقة.
إذا كان وكيل الذكاء الاصطناعي يشبه أصغر وحدة في حياة الذكاء الاصطناعي، فإن الشركات المصنعة للنماذج الكبيرة هي المصانع التي تولد الحياة، والمطورون وبائعو البرامج وما إلى ذلك يشبهون فصول التدريب على المهارات، حيث يعلمونهم بعض المهارات العملية والمتميزة للصناعة. مع المستخدمين.
لذلك، أيًا كان النموذج الكبير الذي يمكنه بناء AI Agent بشكل أفضل، فسوف يجذب نظامًا بيئيًا أكبر للتطوير وسيكون أكثر التزامًا بمستخدمي B-end التجاريين، مما يشكل فرصة كبيرة على مستوى منصة الذكاء الاصطناعي.
باختصار، يؤثر AI Agent بشكل مباشر على تأثير النموذج وجودة الخدمة وتكلفة التنفيذ والقدرات البيئية للنماذج الكبيرة، وسيكون المفتاح للمنافسة بين النماذج الكبيرة المختلفة في المستقبل.
إذا كان أداء وكيل الذكاء الاصطناعي جيدًا، فلا غنى عن النموذج.
ثم قد تتساءل، كيف يمكننا إنشاء وكيل ذكاء اصطناعي جيد؟ ما هي التحديات التي يشكلها هذا بالنسبة للنماذج الكبيرة؟
نعتقد أنه لكي يتم تنفيذ AI Agent، تحتاج النماذج الكبيرة إلى القيام بالمهام التالية، والتي ستكون أيضًا محور المنافسة في المستقبل:
النموذج الأساسي.
يتم تحديد قدرات وتأثيرات AI Agent من خلال قدرات النموذج الأساسي الأساسي. قد لا يتمكن وكيل الذكاء الاصطناعي من استخدام إمكانيات النموذج الأساسي، ولكن قد لا يتمتع وكيل الذكاء الاصطناعي بالإمكانيات التي لا يمتلكها النموذج الأساسي.
إذا أخذنا المهام اللغوية كمثال، يوفر GPT-4 قدرات قوية لفهم اللغة الطبيعية، ولكن حاليًا يتم نشر عدد قليل جدًا منها بالفعل في عملاء ومنتجات الذكاء الاصطناعي، ولا تزال بعض الشخصيات غير القابلة للعب في الألعاب لا تتمتع بالقدرة على اتخاذ قرارات مستقلة.
على سبيل المثال، على الرغم من أن GPT-4 متعدد الوسائط، فإنه يفتح فقط واجهة برمجة تطبيقات اللغة. لذلك، لا يمكن للمطورين الذين يرغبون في استخدام إمكانات GPT4 متعددة الوسائط لإنشاء وكلاء الذكاء الاصطناعي القيام بذلك بعد، ويتم استخدام الطرائق الأخرى مثل الصور والصوت مفقود. بناءً على حالة المعلومات، لا يزال فهم وكيل الذكاء الاصطناعي وتأثيره على البيئة بحاجة إلى التحسين.
لذلك، سواء كان نموذجًا مفتوح المصدر أو نموذجًا مغلق المصدر، إذا كنت ترغب في تسويقه تجاريًا من خلال اقتصاد واجهة برمجة التطبيقات (API)، فإن إمكانيات النموذج الأساسي ستكون مرتبطة بشكل مباشر بجودة وكيل الذكاء الاصطناعي، ولا يزال هناك مجال للتحسين.
2. المعرفة بالبيانات.
لكي تكون وكيلًا جيدًا للذكاء الاصطناعي، يعد جمع البيانات واستخدامها هو الشرط الأساسي. بالنسبة للمطورين، لم تعد كمية البيانات المطلوبة للمهام الرقمية مشكلة، ولكن عند تطوير عملاء الذكاء الاصطناعي في العالم المادي، تكون تكاليف البيانات مرتفعة جدًا. لا يمكن عمومًا جمع بيانات التحكم في الروبوت إلا بنفسك، من خلال جهاز محاكاة أو مجموعة من الروبوتات المادية في الموقع. ولكن بعد كل شيء، فإن جهاز المحاكاة ليس بيئة حقيقية، وقد لا يكون تأثير التدريب جيدًا. ومع ذلك، فإن شراء مئات الروبوتات والطائرات بدون طيار للسير فعليًا على الطريق وإلى المصانع لجمع البيانات يتطلب الكثير من الاستثمار من حيث الشراء. التكاليف، وقيود السياسات، والتنفيذ الفعلي، وما إلى ذلك. الصعوبات.
في هذه المرحلة، قد تتمكن الشركات المصنعة للنماذج الكبيرة التي تتمتع بمزايا البيانات، مثل مزايا القيادة الذاتية لـ Google وBaidu، ومزايا البيانات لـ Microsoft وGoogle وSogou وBaidu وغيرها من شركات البحث، من تقليل بعض العوائق أمام المطورين لاستكشاف وكلاء الذكاء الاصطناعي ، وسوف نقوم أيضًا ببناء حواجز أمام النماذج الكبيرة من هؤلاء البائعين.
دعم المنتج.
يجب الاعتراف بأن فرص تطبيق النماذج الكبيرة التي يمثلها AI Agent لا تزال في مرحلة مبكرة جدًا، والتكنولوجيا لم تنضج تمامًا بعد، وقد اتخذ الاستكشاف التجاري خطوة صغيرة للتو. بالنسبة للمطورين ومقدمي خدمات البرمجيات، وما إلى ذلك، ما هو أكثر أهمية وأسبق في الاعتبار من كيفية تنفيذ AI Agent في التعليمات البرمجية هو تخيل المكان الذي يجب أن يذهب إليه وكيل AI:
ماذا يجب ان تكون؟ ما اسمك؟ هل هناك جنس؟ ما نوع الشخصية التي تستخدمها للتحدث مع المستخدمين؟ ما هي حالات الاستخدام؟ ما هي الصعوبات المحددة التي ستواجهها؟ كيفية تقييم نجاح وكيل الذكاء الاصطناعي؟
هذه هي "الأراضي الحرام" على مستوى المنتج والمستوى التجاري. وللسماح للمطورين بإطلاق العنان لخيالهم ومحاولة إنشاء وكلاء الذكاء الاصطناعي في بيئات ومهام مختلفة، يحتاج مصنعو النماذج الكبيرة إلى فتح النظام البيئي التجاري الخاص بهم وتوفير المزيد من الثراء والفعالية حلول أكثر ملاءمة، وظائف لتقليل مخاطر التجربة والخطأ للمطورين، وزيادة كثافة الالتحام مع مستخدمي الأعمال، وإنشاء المزيد من خيارات الأعمال وحالات التنفيذ.
بشكل عام، لا يزال هذا المجال جديدًا جدًا، ولم يؤثر AI Agent بشكل واضح بعد على صناعة النماذج الكبيرة، ومع ذلك، فمن المؤكد أن AI Agent سيقضي على عدد كبير من التفاعلات المرهقة بين البشر وأنظمة الذكاء الاصطناعي، وهو ما يحدث .
يتم دفع المزيد من وكلاء الذكاء الاصطناعي إلى المجتمعات والمستخدمين، فهم يتعلمون ويتغيرون ويتطورون. ربما في غضون أشهر قليلة، سنشهد نضج وانفجار وكلاء الذكاء الاصطناعي، الأمر الذي سيؤدي حتماً إلى تعديل وزاري آخر في مجال النماذج الكبيرة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
النموذج الكبير متعجرف ومتغطرس، وبدون عملاء الذكاء الاصطناعي، يصعب التنبؤ بالحياة أو الموت.
الأصل: ثعلب التبت
**المصدر: **الجسم القطبي للدماغ
يتولى AI Agent مسؤولية نموذج اللغة الكبير LLM وأصبح الموضوع الأكثر سخونة في دائرة الذكاء الاصطناعي.
في الوقت الحاضر، الوضع في دائرة رأس المال الاستثماري للذكاء الاصطناعي هو كما يلي تقريبًا:
Big Factory Club: يدعي الموظفون الداخليون في OpenAI أن وكيل الذكاء الاصطناعي هو الاتجاه الجديد لـ OpenAI؛ وتحاول Microsoft الترويج لمساعد الطيار والسماح للذكاء الاصطناعي بلعب دور المساعد، وهو سيناريو نموذجي لوكيل الذكاء الاصطناعي؛ أطلقت NVIDIA Voyager، ويمكن لعامل الذكاء الاصطناعي هذا كن مستقلاً اكتب التعليمات البرمجية للسيطرة على لعبة "Minecraft"؛ أطلقت SenseTime المحلية أيضًا وكيلًا عامًا للذكاء الاصطناعي؛ أطلقت Alibaba موظفًا رقميًا...
الدائرة الأكاديمية: في أبريل من هذا العام، أنشأت جامعة ستانفورد مدينة Westworld، مما سمح لـ 25 من عملاء الذكاء الاصطناعي بمحاكاة البشر في بيئة رملية للمدينة الافتراضية، والوقوع في الحب، والاحتفال، والتعاون، والمواعدة، وما إلى ذلك مع عملاء الذكاء الاصطناعي الآخرين. بالإضافة إلى ذلك، بدأ بعض العلماء في استخدام وكلاء الذكاء الاصطناعي لتصميم تجارب علمية معقدة، بما في ذلك قراءة الأوراق تلقائيًا عبر الإنترنت والبحث عن الأدوية المضادة للسرطان... هذه الاستكشافات المتطورة مذهلة.
دائرة ريادة الأعمال: AI Agent ليست مجرد لعبة لكبار العلماء، فقد ظهرت العديد من المشاريع مثل Camel، وAutoGPT، وBabyAGI، وAgentGPT، وهناك أيضًا عدد كبير من مطوري المجتمع مفتوح المصدر ورجال الأعمال الذين يستخدمون هذه المشاريع مفتوحة المصدر لإنشاء بعض الأدوات العملية.. على سبيل المثال، aomni هو تطبيق AI Agent يساعد المستخدمين على التقاط معلومات الشبكة وإرسالها عبر البريد الإلكتروني.
من هذه الأحكام، لا يزال من السابق لأوانه القول بأن "AI Agent قد فتح النصف الثاني من النماذج الكبيرة"، ولكن يجب أن يكون واضحًا أن "AI Agent هو المعيار التجاري للنماذج الكبيرة".
لذلك، يجب أن نرى بعد ذلك المزيد من الشركات المصنعة الكبرى والشركات الناشئة تتخذ المزيد من الإجراءات بشأن AI Agent.
إذًا، ما هو بالضبط وكيل الذكاء الاصطناعي؟ لماذا يقال أنه شرط ضروري لتسويق النماذج الكبيرة؟
النموذج الكبير متعجرف ومتغطرس، لكن المستخدمين ما زالوا لا يدفعون.
هنا نضع وكيل الذكاء الاصطناعي جانبًا أولاً ونلقي نظرة على شكل النموذج الكبير.
أعتقد أن معظم القراء يتفقون على أن النماذج الكبيرة هي شيء يتمتع برؤية عالية، واستثمار مرتفع، وعتبة عالية. ومن منظور عاطفي، من الممكن تحقيق الذكاء الاصطناعي العام وتغيير المجتمع بالكامل؛ ومن منظور علماني، فمن الممكن إعادة بناء الأعمال. المنتجات والسماح لشركات التكنولوجيا بارتفاع الأداء.
ولكن كل هذا يعتمد على حقيقة مفادها أن النماذج الكبيرة يمكن تسويقها تجاريا حقا، واسترداد تكاليف البحث والتطوير، وتحقيق تنمية صحية ومستدامة.
على مدى الأشهر القليلة الماضية، أصبح نموذجان من نماذج الأعمال للنماذج الكبيرة أكثر فعالية: أحدهما هو النشر المحلي المخصخص للنماذج الكبيرة من قبل الحكومات والمؤسسات في مختلف الصناعات؛ والآخر هو قوة الحوسبة المطلوبة لبيع النماذج الكبيرة من خلال السحابة وخوادم الذكاء الاصطناعي. الخ .
في الوقت الحاضر، أصدر المصنعون المحليون تقارير الأعمال المقابلة وحصلوا على عشرات الملايين من الإيرادات من الطلب على نشر الخصخصة في الصناعة.
ومع ذلك، لا يمكن لأعمال ToB وحدها أن تدعم نموذج أعمال واسع النطاق.
في الثورة التكنولوجية، يجب أن تتدفق التكنولوجيا الأساسية إلى الخارج وأن يستخدمها مليارات المستخدمين العاديين من أجل خلق قيمة اقتصادية. بعد أن أصبحت أجهزة الكمبيوتر المنزلية، والإنترنت، والهواتف الذكية شائعة بين الجماهير، ارتفعت القيمة السوقية للعديد من شركات التكنولوجيا.
إذًا، ما هي تجربة التطبيق الفعلية؟
تتمتع سيناريوهات مثل الدردشة والرسم والإبداع بمعدل كبير لتحمل الأخطاء. حتى لو أجاب الذكاء الاصطناعي على السؤال بشكل غير صحيح، سيظل المستخدم يجده "لطيفًا". هذا الجزء من التطبيق معقد للغاية بالفعل، مثل " صورة معرف الذكاء الاصطناعي". في معظم السيناريوهات، هناك حاجة إلى الذكاء الاصطناعي لمساعدتك تلقائيا في التعامل مع المهام الأكثر خطورة، والتعاون مع الظروف البيئية الأخرى، والتعامل مع الأعمال طويلة الأجل والمستمرة. لا ترتكب الكثير من الأخطاء، وإلا فسيضطر الناس إلى المشاركة بأعداد كبيرة. ولا يمكن حقًا زيادة الإنتاجية.
من الواضح أن هذا النوع من السيناريوهات لا يمكن حله بشكل جيد من خلال نموذج كبير ومعقد للأغراض العامة في الوقت الحاضر.
خذ كاتبا مثلي كمثال، إذا تركت عارضة كبيرة تكتب لي مخطوطتي، فقد يكون لديها هلوسة، يجب أن أتحقق مرة أخرى من الأحداث / الأخبار / الصحف المذكورة، وهذا أكثر إزعاجا من البحث عن المعلومة بنفسي وهي ليست دقيقة بما فيه الكفاية. فعندما أتوصل إلى فكرة ما، يجب أن أستخدم كلمات سريعة تلهمني لفترة طويلة، وقد لا يكون هناك أي شيء يمكن استخدامه. فهو بطيء ومتعب، لذا قد أتمكن من ذلك. وكذلك أكتبها بنفسي.
إن عدم القدرة على إكمال المهام تلقائيًا في خطوة واحدة يتطلب تدخل عدد كبير من البشر في المراجعة، وهذا يمثل حاليًا صعوبة كبيرة في تطبيق النماذج الكبيرة في السيناريوهات الجادة، كما أنه يؤثر بشكل مباشر على تقدم تنفيذ النماذج الكبيرة وتسويقها .
كيف افعلها؟ إذا كانت النماذج الكبيرة ترغب في الأداء الجيد، فإنها تحتاج بشكل عاجل إلى مجموعة من المساعدين، وهم وكلاء الذكاء الاصطناعي.
تحرير الإنتاجية حقًا، لماذا يعد AI Agent رائعًا جدًا؟
تخيل فقط، إذا كان بإمكان نموذج كبير أن يعمل بمفرده 24 ساعة في اليوم، 7 أيام في اليوم، دون تدخل بشري، فيمكنه إكمال المهام المختلفة بنفسه. يحتاج الناس فقط إلى العودة إلى الكمبيوتر أو المكتب من حين لآخر لمعرفة كيف يعمل هذه هي الطريقة الصحيحة لفتح نموذج كبير.
في مؤتمر GPT-4، أثبتت OpenAI قدرتها على أتمتة بعض المهام، مثل السماح لـ GPT4 بالتعرف على الرسومات لإنشاء صفحات الويب، وتصحيح الأخطاء في التعليمات البرمجية الخاصة بها خطوة بخطوة.
ولكن كيف يمكن للمطورين والمستخدمين العاديين استخدام هذه الإمكانية؟ أجاب العديد من المطورين بأنه إذا كتبت تعليمات برمجية مباشرة باستخدام GPT4، فلا يزال يتعين عليك تصحيحها بنفسك، ولا يمكنك النظر إلى الصور لإنشاء تعليمات برمجية للاستخدام المباشر، وفي بعض الأحيان يكون من الأفضل عدم استخدامها.
تواجه الشركات المصنعة للنماذج الكبيرة أيضًا معضلة، لقد قمت بفتح واجهة برمجة التطبيقات (API)، لتحقيق المزيد من الإمكانات الاحترافية والدقيقة والمحسنة، يحتاج شخص ما إلى تطويرها بشكل أكبر، لذلك سلمت العصا إلى وكيل الذكاء الاصطناعي.
يعد AI Agent كيانًا آليًا للذكاء الاصطناعي في البيئة، وله أربع خصائص أساسية:
تحسس البيئة المحيطة من خلال أجهزة الاستشعار. يمكن أن تكون هذه البيئة افتراضية، مثل ألعاب وضع الحماية، وأنظمة تدريب المحاكاة، ومحاكيات القيادة الذاتية، وما إلى ذلك، أو يمكن أن تكون مادية، مثل الطرق والغرف وخطوط التجميع وما إلى ذلك.
قادر على اتخاذ القرارات بشكل مستقل.
يعمل المشغلون/المؤثرات معًا لاتخاذ الإجراءات اللازمة.
التعلم والتقدم يعتمد على تعظيم الأداء وتحسين النتائج.
في الواقع، الوكلاء في الذكاء الاصطناعي لديهم نفس المنطق. خذ وكيل الذكاء الاصطناعي في سيناريو القيادة الذاتية كمثال. هناك حاجة إلى أجهزة استشعار لجمع المعلومات واستشعار العوامل البيئية مثل مركبات الطرق والمشاة. سيقوم النظام بعد ذلك تلقائيًا باتخاذ القرارات وتشغيل المسرعات والفرامل وغيرها من المعدات للاستجابة وفقًا لذلك .
يُعرف هذا أيضًا باسم نموذج PEAS لعامل الذكاء الاصطناعي. لنقم بعمل جدول بسيط لتتعرف عليه:
أولا، تفكيك المهمة.
تحتاج النماذج الكبيرة إلى دمجها مع مجال معين، وتكون احتياجات المستخدم التي تواجهها عامة نسبيًا، وغالبًا ما تتضمن العملية خطوات متعددة. تمامًا كما يقول المستخدم "يجب أن يكون هناك ضوء"، فإن النموذج الكبير المعزول لا يعرف ما هي المصابيح الموجودة في البيئة، ولا يعرف كيفية التحكم فيها. لذلك، حتى مع النموذج الكبير، لا يمكنه التعامل مع هذا الأمر الذي يبدو بسيطًا ولكنها مهمة معقدة في الواقع.
يتمتع وكيل الذكاء الاصطناعي بقدرات تخطيط المهام ويمكنه أن يفهم ويقرر تلقائيًا كيفية تخطيط الخطوات وتخصيص الموارد وتحسين القرارات ثم إكمال التعليمات، مما يؤدي إلى تحسين كفاءة ودقة مهام معالجة النماذج الكبيرة.
في ورقة بحثية لفريق بحث Google Brain، طُلب من نموذج اللغة الكبير أن يتحدث علنًا عن عملية التفكير لتحليل خطوات المهمة، أي "المونولوج الداخلي"، ثم اتخاذ الإجراءات المقابلة، مما أدى فجأة إلى تحسين دقة إجابات النموذج الكبير، لقد حقق نتائج SOTA على مجموعات بيانات متعددة، مما أدى إلى تحسين هراء النماذج الكبيرة.
ثانيا، التنفيذ التلقائي.
تم تصميم AI Agent للتفكير والتصرف بشكل مستقل، ويحتاج المستخدمون فقط إلى تكليفه بمهمة والسماح له بالقيام بعمله. من الأمثلة النموذجية على AutoGPT هو طلب البيتزا. لا يحتاج المستخدم إلى إدخال العنوان أو اختيار النكهة. يعتني وكيل AI بجميع خطوات الطلب وينفذها تلقائيًا. يمكن للأشخاص المشاهدة من الجانب وتصحيحها في الوقت إذا تم ارتكاب أي أخطاء.
لا يستطيع AI Agent استخدام الإنترنت فحسب، بل يمكنه أيضًا العمل في البيئة المادية، والتحكم في الروبوتات لتقديم التوصيل السريع، والسيارات بدون سائق، والقيادة الذاتية، وما إلى ذلك.
باستخدام AI Agent، سيكون التفاعل بين المستخدمين والنماذج الكبيرة أكثر طبيعية وبساطة وسرعة، مما يقلل من المشاركة اليدوية ويحسن الجودة والكفاءة بشكل حقيقي. على سبيل المثال، في عالم اللعبة، يمكن لـ AI Agent أن يبدأ حوارًا مع اللاعبين تلقائيًا، ويوفر تفاعلًا مفتوحًا، ويصمم خطوط قصة لا حصر لها بناءً على تعليقات اللاعبين، مما يجعل اللعبة في متناول آلاف الأشخاص حقًا؛ في العالم المادي، AI Agent يمكنه إنشاء التعليمات والتشغيل تلقائيًا، وقيادة الجسم الميكانيكي، وتقديم خدمات التدبير المنزلي للبشر، وأتمتة العمليات في المصانع دون الاعتماد على التوجيه البشري.
ثالثا، حفظ الموارد.
مثل البشر، يمكن لوكلاء الذكاء الاصطناعي استخدام الأدوات، أي استدعاء واجهات برمجة التطبيقات (APIs)، للتعامل مع المهام الأكثر تعقيدًا، مما يوسع بشكل كبير قدرات النماذج الكبيرة ويقلل من الهدر والاستهلاك المفرط للموارد.
على سبيل المثال، عند كتابة التعليمات البرمجية لـ AutoGPT، تحتاج إلى الوصول إلى بيانات مصدر المعلومات الخاصة وموارد الحوسبة وما إلى ذلك. خلال هذه العملية، يمكن لعامل الذكاء الاصطناعي العثور تلقائيًا على واجهة برمجة التطبيقات المناسبة للاتصال بها، وبالتالي تجنب إهدار رموز واجهة برمجة التطبيقات الأخرى. يمكنك أيضًا التعلم بشكل مستقل وتحسين النتائج واستدعاء واجهة برمجة التطبيقات (API) مرة أخرى إذا لم تكن راضيًا.
بشكل عام، لإكمال تعليمات المستخدم غير الواضحة حقًا، مثل التخطيط للسفر، يحتاج النموذج إلى استدعاء واجهات برمجة التطبيقات المتعددة لحل المشكلة. لا شك أن وكلاء الذكاء الاصطناعي الذين يتمتعون بأتمتة قوية يمكنهم توفير الموارد، وبالتالي توفير التكاليف للمستخدمين، مما يسمح لتطبيقات الذكاء الاصطناعي بأن تكون أكثر جاذبية. وتنافسية.
بالنسبة لتسويق النماذج الكبيرة، يتطلب نموذج واجهة برمجة التطبيقات (API) مشاركة أكبر عدد ممكن من مجموعات المطورين، ويتطلب نموذج الصناعة أيضًا تكامل ISV، ومقدمي خدمات البرمجيات، وما إلى ذلك. يعلم الجميع أنه من الصعب الفوز بالنموذج الأساسي لمصنع كبير، ونأمل أن نجد فرصًا في تطبيقات المستوى الأعلى المقسمة. يمكن لـ AI Agent حل مشكلات محددة، وتحسين تأثيرات النماذج، وإدارة الأنظمة الرقمية والكيانات المادية، لذا فهو مناسب جدًا لبناء التطبيقات الفائقة.
إذا كان وكيل الذكاء الاصطناعي يشبه أصغر وحدة في حياة الذكاء الاصطناعي، فإن الشركات المصنعة للنماذج الكبيرة هي المصانع التي تولد الحياة، والمطورون وبائعو البرامج وما إلى ذلك يشبهون فصول التدريب على المهارات، حيث يعلمونهم بعض المهارات العملية والمتميزة للصناعة. مع المستخدمين.
لذلك، أيًا كان النموذج الكبير الذي يمكنه بناء AI Agent بشكل أفضل، فسوف يجذب نظامًا بيئيًا أكبر للتطوير وسيكون أكثر التزامًا بمستخدمي B-end التجاريين، مما يشكل فرصة كبيرة على مستوى منصة الذكاء الاصطناعي.
باختصار، يؤثر AI Agent بشكل مباشر على تأثير النموذج وجودة الخدمة وتكلفة التنفيذ والقدرات البيئية للنماذج الكبيرة، وسيكون المفتاح للمنافسة بين النماذج الكبيرة المختلفة في المستقبل.
إذا كان أداء وكيل الذكاء الاصطناعي جيدًا، فلا غنى عن النموذج.
ثم قد تتساءل، كيف يمكننا إنشاء وكيل ذكاء اصطناعي جيد؟ ما هي التحديات التي يشكلها هذا بالنسبة للنماذج الكبيرة؟
نعتقد أنه لكي يتم تنفيذ AI Agent، تحتاج النماذج الكبيرة إلى القيام بالمهام التالية، والتي ستكون أيضًا محور المنافسة في المستقبل:
يتم تحديد قدرات وتأثيرات AI Agent من خلال قدرات النموذج الأساسي الأساسي. قد لا يتمكن وكيل الذكاء الاصطناعي من استخدام إمكانيات النموذج الأساسي، ولكن قد لا يتمتع وكيل الذكاء الاصطناعي بالإمكانيات التي لا يمتلكها النموذج الأساسي.
إذا أخذنا المهام اللغوية كمثال، يوفر GPT-4 قدرات قوية لفهم اللغة الطبيعية، ولكن حاليًا يتم نشر عدد قليل جدًا منها بالفعل في عملاء ومنتجات الذكاء الاصطناعي، ولا تزال بعض الشخصيات غير القابلة للعب في الألعاب لا تتمتع بالقدرة على اتخاذ قرارات مستقلة.
على سبيل المثال، على الرغم من أن GPT-4 متعدد الوسائط، فإنه يفتح فقط واجهة برمجة تطبيقات اللغة. لذلك، لا يمكن للمطورين الذين يرغبون في استخدام إمكانات GPT4 متعددة الوسائط لإنشاء وكلاء الذكاء الاصطناعي القيام بذلك بعد، ويتم استخدام الطرائق الأخرى مثل الصور والصوت مفقود. بناءً على حالة المعلومات، لا يزال فهم وكيل الذكاء الاصطناعي وتأثيره على البيئة بحاجة إلى التحسين.
لذلك، سواء كان نموذجًا مفتوح المصدر أو نموذجًا مغلق المصدر، إذا كنت ترغب في تسويقه تجاريًا من خلال اقتصاد واجهة برمجة التطبيقات (API)، فإن إمكانيات النموذج الأساسي ستكون مرتبطة بشكل مباشر بجودة وكيل الذكاء الاصطناعي، ولا يزال هناك مجال للتحسين.
لكي تكون وكيلًا جيدًا للذكاء الاصطناعي، يعد جمع البيانات واستخدامها هو الشرط الأساسي. بالنسبة للمطورين، لم تعد كمية البيانات المطلوبة للمهام الرقمية مشكلة، ولكن عند تطوير عملاء الذكاء الاصطناعي في العالم المادي، تكون تكاليف البيانات مرتفعة جدًا. لا يمكن عمومًا جمع بيانات التحكم في الروبوت إلا بنفسك، من خلال جهاز محاكاة أو مجموعة من الروبوتات المادية في الموقع. ولكن بعد كل شيء، فإن جهاز المحاكاة ليس بيئة حقيقية، وقد لا يكون تأثير التدريب جيدًا. ومع ذلك، فإن شراء مئات الروبوتات والطائرات بدون طيار للسير فعليًا على الطريق وإلى المصانع لجمع البيانات يتطلب الكثير من الاستثمار من حيث الشراء. التكاليف، وقيود السياسات، والتنفيذ الفعلي، وما إلى ذلك. الصعوبات.
في هذه المرحلة، قد تتمكن الشركات المصنعة للنماذج الكبيرة التي تتمتع بمزايا البيانات، مثل مزايا القيادة الذاتية لـ Google وBaidu، ومزايا البيانات لـ Microsoft وGoogle وSogou وBaidu وغيرها من شركات البحث، من تقليل بعض العوائق أمام المطورين لاستكشاف وكلاء الذكاء الاصطناعي ، وسوف نقوم أيضًا ببناء حواجز أمام النماذج الكبيرة من هؤلاء البائعين.
يجب الاعتراف بأن فرص تطبيق النماذج الكبيرة التي يمثلها AI Agent لا تزال في مرحلة مبكرة جدًا، والتكنولوجيا لم تنضج تمامًا بعد، وقد اتخذ الاستكشاف التجاري خطوة صغيرة للتو. بالنسبة للمطورين ومقدمي خدمات البرمجيات، وما إلى ذلك، ما هو أكثر أهمية وأسبق في الاعتبار من كيفية تنفيذ AI Agent في التعليمات البرمجية هو تخيل المكان الذي يجب أن يذهب إليه وكيل AI:
ماذا يجب ان تكون؟ ما اسمك؟ هل هناك جنس؟ ما نوع الشخصية التي تستخدمها للتحدث مع المستخدمين؟ ما هي حالات الاستخدام؟ ما هي الصعوبات المحددة التي ستواجهها؟ كيفية تقييم نجاح وكيل الذكاء الاصطناعي؟
هذه هي "الأراضي الحرام" على مستوى المنتج والمستوى التجاري. وللسماح للمطورين بإطلاق العنان لخيالهم ومحاولة إنشاء وكلاء الذكاء الاصطناعي في بيئات ومهام مختلفة، يحتاج مصنعو النماذج الكبيرة إلى فتح النظام البيئي التجاري الخاص بهم وتوفير المزيد من الثراء والفعالية حلول أكثر ملاءمة، وظائف لتقليل مخاطر التجربة والخطأ للمطورين، وزيادة كثافة الالتحام مع مستخدمي الأعمال، وإنشاء المزيد من خيارات الأعمال وحالات التنفيذ.
بشكل عام، لا يزال هذا المجال جديدًا جدًا، ولم يؤثر AI Agent بشكل واضح بعد على صناعة النماذج الكبيرة، ومع ذلك، فمن المؤكد أن AI Agent سيقضي على عدد كبير من التفاعلات المرهقة بين البشر وأنظمة الذكاء الاصطناعي، وهو ما يحدث .
يتم دفع المزيد من وكلاء الذكاء الاصطناعي إلى المجتمعات والمستخدمين، فهم يتعلمون ويتغيرون ويتطورون. ربما في غضون أشهر قليلة، سنشهد نضج وانفجار وكلاء الذكاء الاصطناعي، الأمر الذي سيؤدي حتماً إلى تعديل وزاري آخر في مجال النماذج الكبيرة.