Розуміння RL: Он-політичний RL забуває менше, ніж SFT.



Навіть при співвідношенні точності, RL демонструє менше катастрофічного забування.

Ключові висновки:
1) RL, як правило, "забуває" менше, ніж SFT
2) Он-лійна RL (PPO) забуває менше, ніж офф-лійна RL (DQN)
3) Навіть при однаковій точності RL показує менше катастрофічного забування
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
GasFeeWhisperervip
· 5год тому
ppo знову виграв
Переглянути оригіналвідповісти на0
ZKSherlockvip
· 12год тому
насправді досить захоплююче з інформаційної теорії... менше забування означає кращу ентропію насправді
Переглянути оригіналвідповісти на0
BrokenYieldvip
· 09-06 21:51
нарешті щось, що не забуває, як мої кредитні лонги під час краху 2022 року
Переглянути оригіналвідповісти на0
PumpDoctrinevip
· 09-06 21:41
Чи може SFT запам'ятати?
Переглянути оригіналвідповісти на0
  • Закріпити