Розуміння RL: Он-політичний RL забуває менше, ніж SFT.
Навіть при співвідношенні точності, RL демонструє менше катастрофічного забування.
Ключові висновки: 1) RL, як правило, "забуває" менше, ніж SFT 2) Он-лійна RL (PPO) забуває менше, ніж офф-лійна RL (DQN) 3) Навіть при однаковій точності RL показує менше катастрофічного забування
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
5
Репост
Поділіться
Прокоментувати
0/400
GasFeeWhisperer
· 5год тому
ppo знову виграв
Переглянути оригіналвідповісти на0
ZKSherlock
· 12год тому
насправді досить захоплююче з інформаційної теорії... менше забування означає кращу ентропію насправді
Переглянути оригіналвідповісти на0
BrokenYield
· 09-06 21:51
нарешті щось, що не забуває, як мої кредитні лонги під час краху 2022 року
Розуміння RL: Он-політичний RL забуває менше, ніж SFT.
Навіть при співвідношенні точності, RL демонструє менше катастрофічного забування.
Ключові висновки:
1) RL, як правило, "забуває" менше, ніж SFT
2) Он-лійна RL (PPO) забуває менше, ніж офф-лійна RL (DQN)
3) Навіть при однаковій точності RL показує менше катастрофічного забування