RL's Razor: Оффлайновое обучение с подкреплением забывает меньше, чем SFT.



Даже при совпадающей точности RL демонстрирует меньше катастрофического забвения

Ключевые выводы:
1) RL, как правило, "забывает" меньше, чем SFT
2) На-policy RL (PPO) забывает меньше, чем off-policy RL (DQN)
3) Даже при совпадающей точности RL показывает меньшую катастрофическую забывчивость
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
ZKSherlockvip
· 6ч назад
на самом деле это довольно увлекательно с точки зрения теории информации... меньше забывания подразумевает лучшее сохранение энтропии, если быть честным
Посмотреть ОригиналОтветить0
BrokenYieldvip
· 09-06 21:51
наконец-то что-то, что не забывает, как мои лонги с кредитным плечом в крахе 2022 года
Посмотреть ОригиналОтветить0
PumpDoctrinevip
· 09-06 21:41
Может ли SFT запомнить это надолго?
Посмотреть ОригиналОтветить0
  • Закрепить