شفرة RL: التعلم المعزز على السياسة ينسى أقل من التدريب على البيانات الموقعة.
حتى عند الدقة المتطابقة، يظهر التعلم المعزز نسيانًا كارثيًا أقل
النتائج الرئيسية: 1) RL يميل إلى "نسيان" أقل من SFT 2) التعلم المعزز على السياسة (PPO) ينسى أقل من التعلم المعزز خارج السياسة (DQN) 3) حتى مع دقة متطابقة، يُظهر RL نسيانًا كارثيًا أقل
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 9
أعجبني
9
4
إعادة النشر
مشاركة
تعليق
0/400
ZKSherlock
· منذ 6 س
في الحقيقة، إنه مثير للاهتمام من منظور نظرية المعلومات... قلة النسيان تعني الحفاظ على إنتروبيا أفضل بصراحة
شاهد النسخة الأصليةرد0
BrokenYield
· 09-06 21:51
أخيرًا شيء لا ينسى مثل مراكزي الطويلة المدعومة بالرافعة خلال انهيار 2022
شفرة RL: التعلم المعزز على السياسة ينسى أقل من التدريب على البيانات الموقعة.
حتى عند الدقة المتطابقة، يظهر التعلم المعزز نسيانًا كارثيًا أقل
النتائج الرئيسية:
1) RL يميل إلى "نسيان" أقل من SFT
2) التعلم المعزز على السياسة (PPO) ينسى أقل من التعلم المعزز خارج السياسة (DQN)
3) حتى مع دقة متطابقة، يُظهر RL نسيانًا كارثيًا أقل