2025-09-06 21:21:32

Розуміння RL: Он-політичний RL забуває менше, ніж SFT.

Навіть при співвідношенні точності, RL демонструє менше катастрофічного забування.

Ключові висновки:
1) RL, як правило, "забуває" менше, ніж SFT
2) Он-лійна RL (PPO) забуває менше, ніж офф-лійна RL (DQN)
3) Навіть при однаковій точності RL показує менше катастрофічного забування

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків