تقدم الورقة الجديدة لـ FAIR ExIt (التكرار الاستكشافي)، وهي طريقة تعتمد على التعلم المعزز تقوم بتدريب LLMs على تحسينات خطوة واحدة ولكنها تعتمد على مخرجاتها الخاصة - مما يتيح تحسين ذاتي متعدد الخطوات بكفاءة أثناء الاستدلال ويحقق زيادة بنسبة 22% في MLE-bench.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقدم الورقة الجديدة لـ FAIR ExIt (التكرار الاستكشافي)، وهي طريقة تعتمد على التعلم المعزز تقوم بتدريب LLMs على تحسينات خطوة واحدة ولكنها تعتمد على مخرجاتها الخاصة - مما يتيح تحسين ذاتي متعدد الخطوات بكفاءة أثناء الاستدلال ويحقق زيادة بنسبة 22% في MLE-bench.