زر تسريع وكيل الذكاء الاصطناعي من بايت

المؤلف: وان تشين

الكتابة الجيدة ل DeepSeek-R1 ، وأسلوب جيبلي ل GPT-4o ، والموقع الجغرافي ل OpenAI o3......

هذا هو المنتج الظاهرة الذي كان يتكرر على الشاشة خلال الشهرين الماضيين، يمكنك أن ترى بوضوح: لقد أصبحت التعلم المعزز قادرًا على التعميم أخيرًا، والنماذج متعددة الوسائط أصبحت أكثر قابلية للاستخدام. وهذا يعني أيضًا أن عام 2025 قد دخل حقًا في نقطة زمنية لتطبيقات الوكلاء، وتسريع تطبيقها.

قبل ذلك، كشف فريق AI Agent الشهير - Manus، أنه في نهاية العام الماضي، حقق Claude 3.5 Sonnet مستوى القدرة المطلوبة ليكون Agent في مهام التخطيط طويل الأمد وحل المشكلات بشكل تدريجي، وهذا هو الشرط الأساسي لولادة Manus.

الآن، مع نضوج قدرات نماذج التفكير العميق والنماذج متعددة الوسائط، بالتأكيد سيكون هناك المزيد من الوكلاء القادرين على معالجة المهام المعقدة.

استنادًا إلى هذا الحكم، في 17 أبريل، أطلقت منصة "محرك البركان"، التابعة لشركة بايت دانس، نموذجًا أقوى موجهًا نحو سوق الشركات - نموذج دوبا 1.5・نموذج التفكير العميق، وهو أيضًا النموذج الاستدلالي الذي يقف وراء تطبيق دوبا التابع لشركة بايت دانس الذي يظهر لأول مرة. وتم إطلاق أيضًا نموذج دوبا・نموذج توليد الصور 3.0، بالإضافة إلى النموذج المحسن لفهم الرؤية.

بالنسبة للنموذج الذي تم إصداره هذه المرة، اعتبر رئيس محرك البركان تان داي أن "نموذج التفكير العميق هو أساس بناء الوكيل، يجب أن يكون لدى النموذج القدرة على التفكير والتخطيط والتأمل، ويجب أن يدعم تعدد الوسائط، تمامًا كما يمتلك البشر الرؤية والسمع، حتى يتمكن الوكيل من معالجة المهام المعقدة بشكل أفضل."

عندما يطور الذكاء الاصطناعي قدرات صنع القرار والتنفيذ المستقلة الشاملة ويتحرك نحو عملية الإنتاج الأساسية ، قام Volcano Engine أيضا بإعداد البنية والأدوات للوكلاء لتشغيل العالمين الرقمي والمادي - حلول OS Agent ومجموعات الاستدلال السحابية الأصلية الذكاء الاصطناعي ، لمساعدة المؤسسات على بناء ونشر تطبيقات الوكيل بشكل أسرع وأكثر فعالية من حيث التكلفة.

في رأي تان داي، فإن تطوير الوكيل يشبه تطوير موقع ويب أو تطبيق، حيث أن وجود واجهة برمجة التطبيقات للنموذج وحدها لا يمكن أن تحل المشكلة بشكل كامل، بل تحتاج إلى العديد من مكونات الذكاء الاصطناعي السحابية الأصلية. في الماضي، كان هناك تعريف أساسي للسحابة الأصلية مثل الحاويات والمرونة؛ والآن، سيكون للذكاء الاصطناعي السحابية الأصلية عناصر رئيسية مشابهة. من خلال التفكير المستمر والاستكشاف والعمل السريع في مجال الذكاء الاصطناعي السحابية الأصلية - مثل إنشاء مجموعة متنوعة من البرامج الوسيطة والتقييم والمراقبة والقدرة على الملاحظة ومعالجة البيانات وضمان الأمان والمكونات ذات الصلة مثل Sandbox، تسعى محرك البركان أن تكون الحل الأمثل للبنية التحتية في عصر الذكاء الاصطناعي.

01 نموذج التفكير العميق لدو باو، يشبه الإنسان في البحث والتفكير أثناء المشاهدة

منذ إصدار DeepSeek-R1 في بداية السنة، قامت العديد من تطبيقات ToC بدمج نموذج الاستدلال R1، باستثناء تطبيق豆包. في بداية شهر مارس، تم إطلاق وضع "التفكير العميق" على تطبيق豆包، والذي يعتمد على نموذج التفكير العميق الذي تم تطويره ذاتيًا بواسطة ByteDance.

الآن، تم إصدار نموذج الاستدلال هذا - نموذج دوبا 1.5 · نموذج التفكير العميق رسميًا، ويمكن تجربته واستدعاؤه على منصة فوهة البركان.

انقر على وضع الاتصال بالإنترنت، يمكن لدو باو أن يفكر في المشكلة مثل البشر، يفكر قليلاً، يبحث قليلاً، ثم يستمر في التفكير...، في النهاية بهدف حل المشكلة.

هذه مثال في سيناريو التسوق، حيث يتم طلب من دوي باو أن يوصي بمجموعة مناسبة من معدات التخيم ضمن قيود الميزانية والحجم وما إلى ذلك.

في هذه المسألة، قامت دو باو أولاً بتفكيك النقاط الهامة، ثم خططت للمعلومات المطلوبة، وبعد ذلك حددت المعلومات المفقودة، وأجرت بحثًا عبر الإنترنت. هنا، بحثت في 3 جولات، أولاً بحثت عن الأسعار والأداء، لضمان توافقها مع الميزانية والاحتياجات؛ كما أخذت في الاعتبار احتياجات الأطفال بشكل منفصل، وأخيراً أخذت في الاعتبار الطقس، وبحثت عن تقييمات مفصلة ذات صلة. فكرت وبحثت حتى حصلت على جميع السياقات الضرورية لاتخاذ القرار، وقدمت إجابة منطقيّة.

بالإضافة إلى البحث والتفكير في الوقت نفسه، يتمتع نموذج تفكير دوبا بقدرة على الاستدلال البصري، مثل البشر، حيث يمكنه التفكير ليس فقط بناءً على النصوص ولكن أيضًا بناءً على الصور التي يراها.

خذ مشهد طلب الطعام كمثال، عطلة عيد العمال قادمة قريبًا، لن يحتاج الأصدقاء الذين يسافرون إلى الخارج إلى التقاط صور وتحميلها لترجمة قائمة الطعام باستخدام برامج الترجمة، يمكن لنموذج التفكير العميق من دوباو مساعدتك في طلب الطعام مباشرة بناءً على الصور.

في المثال أدناه، قام نموذج التفكير العميق لدو باو أولاً بإجراء تحويل سعر الصرف للسيطرة على الميزانية، ثم أخذ في الاعتبار تفضيلات كبار السن والأطفال، مع تجنب بعناية الأطباق التي لديهم حساسية منها، وقدم مباشرة خطة القائمة.

الاتصال، التفكير، الاستدلال، متعدد الوسائط، تظهر نموذج التفكير العميق دوبا 1.5 قدرة استدلالية شاملة، قادرة على حل المشكلات الأكثر تعقيدًا.

وفقًا للتقرير الفني، حقق نموذج Doubao 1.5・Deep Thinking أداءً عاليًا في مهام الاستدلال في المجال المهني، مثل تحقيقه نقاطًا متساوية مع OpenAI o3-mini-high في اختبار الاستدلال الرياضي AIME 2024، كما أن درجاته في مسابقات البرمجة واختبارات الاستدلال العلمي قريبة من o1. في الكتابة الإبداعية، وأسئلة المعرفة الإنسانية، وغيرها من المهام العامة، أظهر النموذج أيضًا قدرة ممتازة على التعميم، مما يجعله قادرًا على التعامل مع مجموعة واسعة من سيناريوهات الاستخدام.

نموذج التفكير العميق لدو باو يتمتع أيضًا بخصائص تأخير منخفض، حيث يظهر التقرير الفني أن هذا النموذج يعتمد على بنية MoE، بإجمالي عدد معلمات يبلغ 200 مليار، وعدد المعلمات النشطة فقط 20 مليار، مما يحقق تأثيرًا يمكن مقارنته بأفضل النماذج باستخدام عدد معلمات أقل. استنادًا إلى خوارزميات فعالة ونظام استدلال عالي الأداء، فإن خدمة واجهة برمجة تطبيقات نموذج دو باو تضمن توافرًا عاليًا في الوقت الذي يصل فيه التأخير إلى 20 مللي ثانية.

في الوقت نفسه، لديها أيضًا قدرة متعددة النماذج، حيث يمكنها استخدام نماذج التفكير العميق في مجموعة متنوعة من السيناريوهات، على سبيل المثال، يمكنها فهم مخططات إدارة المشاريع المعقدة، وتحديد المعلومات الأساسية بسرعة، والرد على أسئلة العملاء بدقة وفقًا لمخطط سير العمل بفضل قدرتها القوية على اتباع التعليمات؛ وعند تحليل الصور الجوية، يمكنها تقييم جدوى تطوير المنطقة من خلال دمج ميزات التضاريس.

بالإضافة إلى نموذج الاستدلال، عائلة نماذج دوبا الجديدة تأتي مع تحديثات لنموذجين. في ما يتعلق بنموذج تحويل النص إلى صورة، أطلقت دوبا النسخة المحدثة 3.0، والتي توفر أداءً أفضل في تنسيق النصوص، ونتائج توليد صور مماثلة للصور الفوتوغرافية، بالإضافة إلى طريقة توليد الصور عالية الوضوح بدقة 2K.

النموذج الجديد لا يحل فقط مشكلة توليد النصوص الصغيرة والنصوص الطويلة بشكل أفضل، بل يحسن أيضًا تنسيق الصور. على سبيل المثال، الملصقان "الظهور" و"خطة الحصاد" اللذان تم إنشاؤهما على أقصى اليسار، تتمتع تفاصيلهما بتوليد دقيق، والتنسيق يبدو طبيعيًا، ويمكن استخدامه مباشرة.

الترقية الأخرى هي نموذج الفهم البصري لبذور الفاصوليا 1.5. يحتوي الإصدار الجديد على تحديثين رئيسيين، حيث أصبح تحديد المواقع البصرية أكثر دقة، وفهم الفيديو أكثر ذكاءً.

في مجال تحديد المواقع البصرية، يدعم نموذج فهم الرؤية豆包 1.5 تحديد المواقع الإطارية للأهداف المتعددة، والأهداف الصغيرة، والأهداف العامة، وكذلك تحديد المواقع النقاط، ويدعم عد المواقع، ووصف محتوى المواقع، بالإضافة إلى تحديد المواقع ثلاثية الأبعاد. يمكن أن يؤدي تحسين قدرات تحديد المواقع البصرية إلى توسيع نطاق تطبيقات النموذج بشكل أكبر، مثل سيناريوهات الفحص في المتاجر الفعلية، وواجهة المستخدم الرسومية، وتدريب الروبوتات، وتدريب القيادة الذاتية.

في قدرة فهم الفيديو ، شهد هذا النموذج أيضًا تحسينات كبيرة ، مثل القدرة على التذكر ، وقدرة الفهم الملخص ، وقدرة إدراك السرعة ، وفهم الفيديوهات الطويلة. يمكن للشركات بناء تطبيقات تجارية أكثر إثارة بناءً على فهم الفيديو. على سبيل المثال ، في المشاهد الأسرية ، يمكننا بناءً على قدرة فهم الفيديو ، بالإضافة إلى البحث عن المتجهات ، إجراء بحث دلالي على فيديوهات المراقبة في المنزل.

على سبيل المثال في هذا المثال، يرغب مالك القط في معرفة أنشطة القط يوميًا، والآن يمكنه البحث مباشرة عن "ماذا فعلت القطط في المنزل اليوم؟" مما يؤدي إلى عودة سريعة لمقاطع الفيديو ذات الصلة دلالياً، لعرضها للمستخدم.

بفضل نماذج الاستدلال ذات الفهم البصري واحتياطي القدرة على الاستدلال الأكبر، أصبح من الممكن الآن تحقيق العديد من الأمور التي لم تكن ممكنة سابقًا، مما يتيح فتح المزيد من السيناريوهات. على سبيل المثال، من المؤكد أن الكاميرات التي تتمتع بهذه الوظيفة ستكون أكثر شعبية، كما أن نظارات الذكاء الاصطناعي، والألعاب الذكية، والكاميرات الذكية، والأقفال ستشهد أيضًا مجالات جديدة من التطور.

02 السحاب، دخول عصر الذكاء الاصطناعي الوكيل

في الأيام القليلة الماضية، أشار الباحث في OpenAI ياو شونغ يو (المؤلف الرئيسي في Deep Research وOperator) في مقال بعنوان "الجزء الثاني من الذكاء الاصطناعي" إلى أنه مع اكتشاف طرق يمكن أن تعمم بها التعلم التعزيزي، لم يعد الأمر مقتصرًا على مجالات محددة، مثل هزيمة لاعبي الشطرنج البشريين من خلال AlphaGo، بل يمكن أن يحقق نتائج قريبة من مستوى المنافسة البشرية في مجالات مثل هندسة البرمجيات، الكتابة الإبداعية، الرياضيات بمستوى IMO، واستخدام الماوس ولوحة المفاتيح، وغيرها. في هذه الحالة، سيكون من الأسهل التنافس على درجات القوائم، والحصول على درجات أعلى في قوائم أكثر تعقيدًا، لكن هذه الطريقة في التقييم قد عفا عليها الزمن.

الآن ما يتم التنافس عليه هو القدرة على تعريف المشكلة. بعبارة أخرى، ما هي المشاكل التي يجب على الذكاء الاصطناعي حلها في الحياة الواقعية؟

في عام 2025، ستكون الإجابة هي وكيل الإنتاجية. حاليًا، تتقدم تطبيقات الذكاء الاصطناعي بسرعة نحو عصر الذكاء الاصطناعي الوكيل، حيث يصبح الذكاء الاصطناعي قادرًا تدريجيًا على إكمال المهام الكاملة ذات المستوى العالي من الاحترافية والتي تستغرق وقتًا طويلاً. في هذا السياق، قامت محرك البركان أيضًا ببناء مجموعة من البنية التحتية "لتعريف الشركات لوكيلها العام الخاص بها".

الأهم هو النموذج، القادر على التخطيط الذاتي، والتفكير، واتخاذ القرارات وتنفيذها بشكل مستقل من البداية إلى النهاية، والتوجه نحو مراحل الإنتاج الأساسية. في الوقت نفسه، يحتاج أيضًا إلى قدرة على الاستدلال متعدد الأبعاد، مما يسمح له بإكمال المهام في العالم الحقيقي من خلال الأذنين، والفم، والعينين.

بصرف النظر عن النموذج، يحتاج أيضًا مكدس تقنية Infra إلى التطور المستمر. على سبيل المثال، مع ظهور مزايا أكثر كفاءة من بنية MoE، أصبحت تدريجيًا البنية الرئيسية للنموذج، وبالمثل، تحتاج جدولة تكيف نموذج MoE إلى بنية وأدوات حوسبة سحابية أكثر تعقيدًا ومرونة.

في الوقت الحالي، أطلقت محرك البركان بنية وأدوات أفضل في سياق وكلاء المؤسسات العامة - حل OS Agent، الذي يدعم النماذج الكبيرة للتفاعل مع العالمين الرقمي والمادي، مثل استخدام الوكيل لتشغيل المتصفح، والبحث عن صفحات المنتجات، وتنفيذ مهام مقارنة أسعار iPhone، وحتى استخدام الوكيل لتحرير الفيديو والموسيقى على جهاز كمبيوتر بعيد باستخدام剪映.

حالياً، تتضمن حلول محرك البركان OS Agent نموذج دبابيس UI-TARS، بالإضافة إلى خدمات الوظائف veFaaS، والخوادم السحابية، والهواتف السحابية وغيرها من المنتجات، مما يتيح التحكم في التعليمات البرمجية، والمتصفح، والكمبيوتر، والهاتف المحمول، وغيرها من الوكلاء. من بين ذلك، يجمع نموذج دبابيس UI-TARS بين فهم الشاشة البصري، والاستدلال المنطقي، وتحديد عناصر الواجهة، والعمليات، متجاوزاً قيود أدوات الأتمتة التقليدية المعتمدة على القواعد المحددة مسبقاً، مما يوفر أساس نموذج أكثر قربًا من العمليات البشرية لتفاعل الوكيل الذكي.

في سيناريوهات الوكيل العام، تتيح محرك البركان من خلال حل OS Agent هذا للشركات والأفراد أو المجالات المحددة، تعريف واستكشاف الوكيل حسب الحاجة.

في فئة الوكلاء العموديين، ستقوم محرك البركان باستكشاف المجالات التي تتمتع فيها بميزة، مثل المساعد البرمجي الذكي "Trae" والمنتج البيانات "Data Agent"، حيث تعمل الأخيرة على تحقيق أقصى استفادة من قدرة معالجة البيانات من خلال بناء دوّامة البيانات.

من ناحية أخرى، مع تغلغل الوكيل، سيؤدي ذلك أيضًا إلى زيادة كبيرة في استهلاك استنتاج النماذج. لمواجهة الطلب الكبير على الاستنتاج، قامت منصة فولكان بإنشاء مجموعة استنتاج ServingKit السحابية الأصلية للذكاء الاصطناعي، مما يجعل نشر النماذج أسرع وتكاليف الاستنتاج أقل، حيث تم تقليل استهلاك GPU بنسبة 80% مقارنةً بالحلول التقليدية.

في رأي تان داي، من أجل تلبية احتياجات عصر الذكاء الاصطناعي، سيعمل محرك البركان على تعزيز ثلاثة مجالات: تحسين النموذج باستمرار للحفاظ على القدرة التنافسية؛ تقليل التكاليف باستمرار، بما في ذلك الرسوم، والتأخير وزيادة معدل التدفق؛ جعل المنتجات أكثر سهولة في التطبيق، مثل الأدوات الموجهة للمطورين مثل كوزي وHiAgent، بالإضافة إلى مكونات السحابة الأصلية مثل OS Agent. من خلال الحفاظ على تقدم المنتجات والتكنولوجيا، ستظل حصة السوق متقدمة أيضًا. وقد أظهر تقرير IDC السابق "تحليل نمط سوق خدمات النماذج الكبيرة في السحابة العامة في الصين، الربع الأول من 25" أن محرك البركان يحتل المركز الأول بحصة سوقية تبلغ 46.4%.

في ديسمبر من العام الماضي، كان متوسط عدد استدعاءات التوكنات لنموذج دوبا هو 40 تريليون. حتى نهاية مارس من هذا العام، تجاوز هذا الرقم 12.7 تريليون، مقارنةً بوقت إصدار نموذج دوبا، حيث تحقق نمو سريع يزيد عن 106 مرات في أقل من عام. في المستقبل، مع المزيد من نضوج نماذج التفكير العميق واستنتاجات الرؤية وتحسين البنية التحتية السحابية للذكاء الاصطناعي، ستحفز الوكيل أيضًا مزيدًا من استدعاءات التوكنات.

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت
تداول العملات الرقمية في أي مكان وفي أي وقت
qrCode
امسح لتنزيل تطبيق Gate.io
المنتدى
بالعربية
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)