لين جون يانغ يترك شركة علي بابا ويكتب أول منشور له: عصر الوكيل الذكي قادم

__

المؤلف: لين جونيانغ، المسؤول السابق عن Qwen، أصغر P10 في علي بابا. غادر علي بابا في مارس 2026

العنوان الأصلي “من التفكير العقلاني إلى التفكير الوكالي”

لقد أعادت السنوات الماضية تشكيل طريقة تقييمنا للنماذج وتوقعاتنا منها. أثبت نموذج OpenAI o1 أن “التفكير” يمكن أن يصبح قدرة من الدرجة الأولى، وهي قدرة يمكنك تدريبها خصيصًا وفتحها للمستخدمين. بينما أثبت DeepSeek-R1 أنه يمكن تكرار وتوسيع هذا الأسلوب في التفكير خارج أفضل المختبرات في البداية. وصفت OpenAI o1 بأنه نموذج تم تدريبه باستخدام التعلم المعزز “يفكر قبل أن يجيب”؛ بينما وضعت DeepSeek R1 كونه نموذج استدلال مفتوح المصدر يمكنه المنافسة بشكل مباشر مع o1.

كانت تلك المرحلة ذات أهمية كبيرة. لكن تركيز النصف الأول من عام 2025 كان يدور حول “التفكير الاستدلالي”: كيف نجعل النماذج ت投入 المزيد من قدرة الحساب الاستدلالي، كيف نستخدم إشارات مكافأة أقوى لتدريبها، وكيف نقدم أو نتحكم في هذا الاستثمار الإضافي من الاستدلال. السؤال الآن هو، ما هي الخطوة التالية؟ أعتقد أن الجواب هو “التفكير الوكالي”: التفكير من أجل العمل، وتحديث الخطط باستمرار بناءً على التغذية الراجعة من العالم الحقيقي أثناء التفاعل مع البيئة.

  1. ماذا علمتنا صعود o1 وR1

علمتنا الموجة الأولى من نماذج الاستدلال: إذا أردنا توسيع التعلم المعزز (RL) في النماذج اللغوية، نحتاج إلى إشارات تغذية راجعة محددة، مستقرة وقابلة للتوسع. أصبحت المجالات القابلة للتحقق مثل الرياضيات، البرمجة، والمنطق مركزية، لأن إشارات المكافأة في هذه السيناريوهات أقوى بكثير من إشراف التفضيلات التقليدي. سمحت هذه النماذج للتعلم المعزز بالتفاؤل بشأن “الصحة” بدلاً من “المنطق الظاهري”. ومن ثم أصبحت البنية التحتية ذات أهمية قصوى.

بمجرد تدريب النموذج ليكون قادرًا على الاستدلال من خلال مسارات أطول، لم يعد التعلم المعزز مجرد مكون إضافي خفيف للتحسين بالإشراف (SFT). بل تحول إلى مشكلة نظام معقدة. تحتاج إلى تنفيذ استراتيجيات على نطاق واسع، وآليات تحقق عالية الإنتاجية، وتحديثات استراتيجية مستقرة، وقدرة أخذ عينات فعالة. كانت ظهور نماذج الاستدلال بمثابة اختراق في القدرة على النمذجة، وكذلك انتصار في هندسة البنية التحتية. وصفت OpenAI o1 بأنه خط إنتاج استدلال تم تدريبه باستخدام RL، بينما أكدت DeepSeek R1 لاحقًا على هذا الاتجاه، حيث أظهرت للعالم كيف تحتاج RL المستندة إلى الاستدلال إلى خوارزميات وبنية تحتية ضخمة مخصصة. كانت هذه هي المرة الأولى التي يحدث فيها تحول كبير في الصناعة: من توسيع ما قبل التدريب إلى توسيع ما بعد التدريب لتعزيز القدرة على الاستدلال.

  1. المشكلة الحقيقية لا تتعلق أبدًا بـ “دمج التفكير والتعليمات”

في أوائل عام 2025، كان لدى العديد من أعضاء فريق Qwen رؤية واسعة في أذهانهم: يجب أن يجمع النظام المثالي بين نمطي “التفكير” و"التعليمات". يجب أن يدعم قوة استدلال قابلة للتعديل، مشابهة من الناحية الذهنية لإعدادات الاستدلال “منخفضة / متوسطة / عالية”. والأفضل من ذلك، يجب أن يكون قادرًا على استنتاج كمية الاستدلال المطلوبة تلقائيًا بناءً على الكلمات الرئيسية والسياق، وبالتالي تحديد متى يجب أن يجيب على الفور، ومتى يجب أن يفكر لفترة أطول، ومتى يجب أن يستثمر الكثير من القدرة الحسابية في المسائل الصعبة حقًا.

من الناحية المفاهيمية، هذا هو الاتجاه الصحيح. Qwen3 هو أحد أوضح المحاولات العامة. قدمت “وضع التفكير المختلط”، حيث توازن بين السلوكيات الاستدلالية وغير الاستدلالية ضمن نفس سلسلة النماذج، مما يبرز ميزانية التفكير القابلة للتحكم، ويصف خط أنابيب لما بعد التدريب من أربع مراحل - والذي يتضمن بوضوح “دمج وضع التفكير” بعد بدء التشغيل البارد لـ long-CoT وRL الاستدلالي.

ومع ذلك، فإن دمج هذه العناصر يبدو سهلاً، ولكنه في الواقع صعب للغاية. تكمن الصعوبة في البيانات. عندما يتحدث الناس عن دمج التفكير والتعليمات، فإن أول ما يتبادر إلى الذهن غالبًا هو التوافق على جانب النموذج: هل يمكن لنقطة تفتيش دعم كلا النمطين؟ هل يمكن لنموذج محادثة الانتقال بسلاسة بين الاثنين؟ هل يمكن أن توفر سلسلة الخدمات مفاتيح تحكم مناسبة؟ لكن التناقض الأكثر عمقًا يكمن في أن توزيعات البيانات لكل من هذين النمطين وأهداف السلوك تختلف اختلافًا جوهريًا.

عند محاولة التوازن بين “دمج النموذج” و"رفع جودة وتنوع بيانات ما بعد التدريب"، وقعنا في بعض الفخاخ. خلال عملية المراجعة، تابعنا عن كثب كيف يستخدم المستخدمون أنماط التفكير والتعليمات في السيناريوهات العملية. عادةً ما تأتي المكافآت من نموذج التعليمات القوي من مباشرة، وبساطة، والامتثال للتنسيق، والحفاظ على تأخير منخفض جدًا في المهام التجارية الكبيرة والمتكررة (مثل إعادة الكتابة، والتعليق، والدعم القائم على القوالب، والاستخراج الهيكلي، وأسئلة وأجوبة العمليات). على النقيض من ذلك، تأتي المكافآت من نموذج التفكير القوي من استهلاك المزيد من الرموز في المسائل الصعبة، والحفاظ على اتساق الهيكل المنطقي الداخلي، واستكشاف المسارات البديلة، والاحتفاظ بكمية كافية من الحساب الداخلي لتحسين الدقة النهائية بشكل ملحوظ.

تتعارض نمطين السلوك مع بعضهما البعض. إذا كانت البيانات المدمجة لم يتم التخطيط لها بعناية، فإن النتائج غالبًا ما تكون غير مرضية: يصبح سلوك “التفكير” مشوشًا، وممتلئًا أو مترددًا؛ بينما يفقد سلوك “التعليمات” البساطة والموثوقية، وتزيد تكاليف الاستخدام بشكل كبير عن التوقعات الفعلية للمستخدمين التجاريين.

لذلك في الممارسة العملية، فإن فصل بين الاثنين لا يزال جذابًا. في وقت لاحق من عام 2025، بعد الهيكل المختلط الأولي لـ Qwen3، أصدرت سلسلة منتجات 2507 تحديثات منفصلة تمامًا للتعليمات والتفكير، بما في ذلك متغيرات مستقلة 30B و235B. لا يزال العديد من العملاء يتوقون للحصول على سلوكيات تعليمات عالية الإنتاجية، ومنخفضة التكلفة، وقابلة للتحكم بشكل كبير للعمليات الدفعة. في هذه السيناريوهات، لا يجلب الدمج فوائد واضحة. بدلاً من ذلك، سمح فصل سلسلة المنتجات للفريق بحل تحديات البيانات والتدريب لكل نمط بشكل أكثر نقاءً.

اختارت مختبرات أخرى الاتجاه المعاكس. تدعو Anthropic بشكل علني إلى مفهوم النموذج المدمج: تم تحديد Claude 3.7 Sonnet كنموذج استدلال مختلط، حيث يمكن للمستخدمين اختيار الاستجابة التقليدية أو التفكير الموسع، كما يمكن لمستخدمي API تحديد ميزانية التفكير. أكدت Anthropic بوضوح أنهم يعتقدون أن الاستدلال يجب أن يكون قدرة مدمجة مضمنة، بدلاً من نموذج مستقل مفصول. مثلما يروج GLM-4.5 لنفسه كنموذج استدلال مختلط يجمع بين النمطين، ويسعى لدمج الاستدلال، والترميز، وقدرات الوكالة؛ كما أصدرت DeepSeek لاحقًا آلية الاستدلال المختلط “التفكير وغير التفكير” V3.1.

المسألة الأساسية هنا هي ما إذا كان هذا الدمج طبيعيًا وعضويًا. إذا كان التفكير والتعليمات قد تم إدخالها قسريًا في نفس أوزان النموذج، ولكنها تصرفت وكأنها شخصيتان مستقلتان تم خياطتهما بشكل غير متقن، فإن تجربة المنتج ستظل غير متناسقة للغاية. يتطلب الدمج الناجح حقًا وجود نطاق سلس من استثمار الاستدلال. يجب أن يكون النموذج قادرًا على التعبير عن مستويات مختلفة من الاستثمار، وفي الوضع المثالي، اتخاذ قرارات ذاتية.

  1. لماذا يعتبر اتجاه Anthropic تصحيحًا مفيدًا

بدت الدعاية الخارجية لـ Anthropic عند إطلاق Claude 3.7 وClaude 4 متحفظة جدًا. ركزوا على الاستدلال المدمج، وميزانية التفكير القابلة للتحكم من قبل المستخدم، والمهمات من العالم الحقيقي، وجودة الترميز، وقدرات استدعاء الأدوات التي أطلقت لاحقًا خلال التفكير الموسع. تم عرض Claude 3.7 كنموذج استدلال مختلط بميزانية قابلة للتحكم؛ بينما تقدم Claude 4 خطوة إضافية، مما يسمح بدمج عملية الاستدلال مع استدعاء الأدوات. في الوقت نفسه، أكدت Anthropic مرارًا وتكرارًا أن الترميز، والمهام الطويلة الأمد، وتدفقات العمل الوكالية هي أهدافهم الأساسية.

إن مجرد توليد مسارات استدلال أطول لا يجعل النموذج بالضرورة أكثر ذكاءً. في العديد من الحالات، يؤدي الإفراط في عرض عملية الاستدلال إلى كشف عن عدم كفاءة في توزيع الموارد الحاسوبية. إذا كان النموذج يحاول الاستدلال حول كل شيء بنفس الطريقة المطولة، فهذا يعني أنه لم يقم بترتيب الأولويات بشكل جيد، أو لم يستطع تبسيط المعلومات، أو ببساطة لم يكن قادرًا على اتخاذ إجراءات فعلية. تعكس مسار تطور Anthropic وجهة نظر أكثر انضباطًا: يجب أن يتم تشكيل التفكير بواسطة أعباء العمل المستهدفة. إذا كان الهدف هو الترميز، فإن قيمة التفكير يجب أن تتجلى في توجيه مكتبة الشفرة، وتخطيط المهام، وتقسيم المهام، واسترداد الأخطاء، وتنظيم الأدوات. إذا كان الهدف هو تدفقات العمل الوكالية، فإن التفكير يجب أن يركز على تحسين جودة التنفيذ على المدى الطويل، بدلاً من كتابة بيان وسطي مزخرف.

يشير هذا التركيز على “فائدة الهدف” إلى اتجاه أوسع: نحن ننتقل من عصر تدريب النماذج إلى عصر تدريب الوكلاء (Agents). وقد أوضحنا ذلك في مدونة Qwen3 - “نحن ننتقل من عصر يركز على تدريب النماذج إلى عصر يركز على تدريب الوكلاء”، وارتبطت نقاط الانكسار المستقبلية في RL بالتغذية الراجعة البيئية اللازمة للاجتهاد الطويل. الوكيل هو نظام قادر على وضع خطط، وتحديد متى يعمل، واستدعاء الأدوات، وإدراك التغذية الراجعة البيئية، وتعديل الاستراتيجيات، واستمرار العمل على المدى الطويل. تعريفه الجوهري يكمن في التفاعل الدائري مع العالم الحقيقي.

  1. ماذا يعني “التفكير الوكالي” حقًا

التفكير الوكالي هو هدف تحسين مختلف تمامًا. يتم تقييم “التفكير الاستدلالي” عادةً استنادًا إلى جودة المراجعة الداخلية قبل الوصول إلى الإجابة النهائية: هل يمكن للنموذج حل المبرهنة، أو كتابة إثبات، أو إنتاج شيفرة خالية من الأخطاء، أو اجتياز اختبارات المعايير. بينما معايير تقييم “التفكير الوكالي” هي ما إذا كان النموذج قادرًا على تحقيق تقدم ملموس أثناء التفاعل مع البيئة.

تحولت المشكلة الأساسية من “هل كان وقت تفكير النموذج كافيًا؟” إلى “هل طريقة تفكير النموذج كافية لدعمه في اتخاذ إجراءات فعالة؟” يجب على التفكير الوكالي التعامل مع عدة مشاكل يمكن لنماذج الاستدلال الخالصة تجنبها بشكل عام:

  • أ. تحديد متى يتوقف عن التفكير ويتخذ إجراءً

  • ب. اختيار الأداة المناسبة وترتيب استدعائها

  • ج. دمج الملاحظات الصاخبة أو الناقصة من البيئة

  • د. إعادة ضبط الخطط بعد الفشل

  • ه. الحفاظ على الاتساق المنطقي خلال الحوارات المتعددة واستدعاءات الأدوات

باختصار، يجب أن تمر نماذج التفكير الوكالي من خلال العمل لتستدل.

  1. لماذا يصعب تأسيس البنية التحتية للتعلم المعزز الوكالي أكثر

بمجرد أن يتحول الهدف من “حل اختبارات المعايير” إلى “إكمال المهام التفاعلية”، ستحدث تغييرات كبيرة في مجموعة تقنيات التعلم المعزز. لم تعد البنية التحتية المستخدمة في التعلم المعزز الاستدلالي كافية. في التعلم المعزز الاستدلالي، يمكنك عادةً اعتبار تنفيذ الاستراتيجيات كمسارات مستقلة نسبيًا، مع وجود مقيمين واضحين. لكن في التعلم المعزز الوكالي، تُدمج الاستراتيجيات بعمق في إطار دعم ضخم: خادم الأدوات، المتصفح، الطرفية، محرك البحث، المحاكي، صندوق التنفيذ، طبقة API، نظام الذاكرة، وإطار التنظيم. لم تعد البيئة حكمًا ثابتًا؛ بل أصبحت جزءًا لا يتجزأ من النظام التدريبي بالكامل.

هذا يخلق حاجة جديدة على مستوى النظام: يجب أن يكون التدريب والاستدلال أكثر فصلًا. في غياب هذا الفصل، ستنهار إنتاجية تنفيذ الاستراتيجيات مباشرة. تخيل وكيل ترميز يجب أن يعمل في إطار اختبار حقيقي لتشغيل الشيفرة التي تم إنتاجها: ستضطر نقطة الاستدلال للتوقف بسبب انتظار التغذية الراجعة التنفيذية، بينما ستعاني نقطة التدريب من الجوع بسبب عدم تلقي بيانات المسار الكاملة، وستكون نسبة استخدام GPU في خط الأنابيب بأكمله أقل بكثير من المستويات التي توفرها تقنيات التعلم المعزز التقليدية. إذا أضفت تأخيرات الأدوات، والقدرة على الملاحظة الجزئية، والبيئات ذات الحالة، ستتضخم هذه المشاكل غير الفعالة بشكل أكبر. النتيجة هي أنه قبل الوصول إلى المعايير المطلوبة للقدرات، ستصبح تقدم التجربة بأكمله بطيئًا ومؤلمًا للغاية.

تتقدم البيئة نفسها لتصبح منتجًا بحثيًا رئيسيًا. في عصر SFT (التحسين بالإشراف)، كنا نبحث بشغف عن تنوع البيانات. لكن في عصر الوكلاء، يجب أن نركز على جودة البيئة: الاستقرار، والواقعية، ونسبة تغطية السيناريو، ودرجات الصعوبة، وتنوع الحالة، وغنى التغذية الراجعة، وقدرات مكافحة الغش، وقابلية توسيع تنفيذ الاستراتيجيات. لقد أصبحت بناء بيئات افتراضية مسارًا حقيقيًا للمشاريع الصعبة، وليس مجرد مشروع ثانوي. إذا كان الوكيل مقدرًا له أن يتلقى التدريب في ظروف مشابهة للبيئة الإنتاجية، فإن البيئة نفسها تعتبر جزءًا من مجموعة القدرات التقنية الرئيسية.

  1. المجال التالي المتقدم: قوة التفكير الأكثر عملية

توقعاتي الشخصية هي أن التفكير الوكالي سيصبح الشكل السائد للتفكير في المستقبل. أعتقد أنه في النهاية سيتجاوز معظم أشكال التفكير الاستدلالي “الثابتة والوحيدة” القديمة - أي تلك التي تكون مفرطة في الطول، ومعزولة، وتحاول إخفاء عدم القدرة على التفاعل من خلال إنتاج نصوص طويلة بشكل متزايد. حتى في مواجهة المهام الرياضية أو الترميز الصعبة للغاية، يجب أن يمتلك النظام المتقدم الحقيقي حقوق البحث، والمحاكاة، والتنفيذ، والتحقق، والتعديل. هدفنا النهائي هو حل المشكلات الواقعية بطريقة فعالة ومستدامة.

تكمن أكبر نقطة ضعف في تدريب هذه الأنظمة في “غش المكافآت”. بمجرد أن يحصل النموذج على وصول فعلي إلى الأدوات، يصبح غش المكافآت مدمرًا للغاية. قد يتعلم نموذج متصل بوظيفة البحث مباشرة كيفية البحث عبر الإنترنت عن الإجابات أثناء تدريب RL. قد يستخدم وكيل الترميز معلومات مستقبلية غير معلنة في مكتبة الشيفرة، أو يستغل السجلات، أو يجد طريقًا مباشرًا لجعل المهمة غير فعالة. ستجعل بيئة تحتوي على ثغرات مخفية استراتيجيات النموذج تبدو خارقة، لكنها في الواقع قد تدربت فقط لتصبح بارعًا في الغش. مقارنةً بعصر الاستدلال، فإن وضع الوكلاء أكثر دقة وخطورة بكثير. تجعل الأدوات الأقوى النموذج أكثر فائدة، لكنها تضخم أيضًا بشكل كبير من سطح الهجوم في تحسينات خاطئة. يمكننا أن نتوقع تمامًا أن العقبة الأكاديمية التالية ستظهر في تصميم البيئة، واستقرار المقيمين، وبروتوكولات مكافحة الغش، وإنشاء معايير واجهة أكثر تنظيمًا بين الاستراتيجيات والعالم المادي. على الرغم من كل هذه التحديات، إلا أن الاتجاه العام لا يتزعزع: التفكير المدعوم بالأدوات هو بشكل جوهري أكثر قيمة من التفكير الذي يتم في عزلة، من المرجح أن يحقق قفزات إنتاجية حقيقية.

كما يعني التفكير الوكالي أيضًا صعود “هندسة الإطار الداعم”. ستعتمد الذكاء الأساسية في المستقبل بشكل متزايد على طرق التنظيم التعاونية بين عدة وكلاء: منظم مركزي مسؤول عن التخطيط وتحديد المهام، وكيل مخصص يلعب دور خبير المجال، ووكلاء فرعيون مسؤولون عن تنفيذ المهام المتخصصة (هم لا يعملون فقط، بل يساعدون أيضًا في التحكم في السياق، وتجنب تلوث الذاكرة، والحفاظ على العزل المادي بين مستويات التفكير المختلفة). إن مستقبل الصناعة، ينتقل من تدريب النماذج إلى تدريب الوكلاء، وفي النهاية إلى تدريب أنظمة هائلة.

الخاتمة

حدد المرحلة الأولى من موجة الاستدلال قاعدة صارمة: طالما كانت إشارات التغذية الراجعة موثوقة بما فيه الكفاية وكانت البنية التحتية قوية، فإن إضافة التعلم المعزز فوق النماذج اللغوية يمكن أن يولد قدرات معرفية تحدث تغييرًا نوعيًا.

بينما ينتقل التحول الأعمق في الصناعة من “التفكير الاستدلالي” إلى “التفكير الوكالي”: من مجرد التفكير لفترة أطول، إلى التفكير من أجل اتخاذ الإجراءات. لقد انتقل الهدف الأساسي للتدريب. لم يعد يتعلق بالنموذج نفسه فقط، بل هو نظام تكافلي من “النموذج + البيئة”، وبشكل أكثر تحديدًا، الوكيل وإطاره الداعم. لقد غير ذلك تمامًا فهمنا لما هو “المنتج البحثي الأساسي”: على الرغم من أن هيكل النموذج وبيانات التدريب مهمان، إلا أن تصميم البيئة، وبنية تنفيذ الاستراتيجيات، وقدرة المقيمين على مقاومة التدخل، والمعايير الأساسية للتعاون بين الوكلاء ستكون في مكانة متساوية أو أعلى. كما أعاد تعريف ما هو “التفكير الجيد”: “الجيد” الحقيقي يعني المسارات الفكرية التي تدعم الفعل بشكل أكثر فعالية تحت قيود العالم الحقيقي، بدلاً من مجرد مقارنة من ينتج نصوصًا أطول، أو من لديه عمليات حسابية أكثر وضوحًا.

كما أن ذلك يغير منطق الحواجز التجارية المستقبلية. في عصر الاستدلال، من يمتلك خوارزميات التعلم المعزز الأفضل، وإشارات التغذية الراجعة الأكثر نقاءً، وخطوط التدريب الأكثر قابلية للتوسع، هو من سيحقق النجاح. بينما في عصر الوكالة، ستصبح الورقة الرابحة هي من يمتلك بيئات أكثر واقعية، وهياكل “التدريب والاستدلال المتكاملة” الأكثر سلاسة، وقدرات هندسية إطار أكثر قوة، ومن يمكنه إغلاق ذلك الحلقة الراجعة الحيوية بين “قرارات النموذج” و"العواقب الحقيقية التي تنتج عن تلك القرارات" بأكثر الطرق كمالاً.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.34Kعدد الحائزين:1
    1.57%
  • القيمة السوقية:$2.36Kعدد الحائزين:3
    0.80%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • تثبيت