RL's Razor: Оффлайновое обучение с подкреплением забывает меньше, чем SFT.
Даже при совпадающей точности RL демонстрирует меньше катастрофического забвения
Ключевые выводы: 1) RL, как правило, "забывает" меньше, чем SFT 2) На-policy RL (PPO) забывает меньше, чем off-policy RL (DQN) 3) Даже при совпадающей точности RL показывает меньшую катастрофическую забывчивость
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
4
Репост
Поделиться
комментарий
0/400
ZKSherlock
· 6ч назад
на самом деле это довольно увлекательно с точки зрения теории информации... меньше забывания подразумевает лучшее сохранение энтропии, если быть честным
Посмотреть ОригиналОтветить0
BrokenYield
· 09-06 21:51
наконец-то что-то, что не забывает, как мои лонги с кредитным плечом в крахе 2022 года
RL's Razor: Оффлайновое обучение с подкреплением забывает меньше, чем SFT.
Даже при совпадающей точности RL демонстрирует меньше катастрофического забвения
Ключевые выводы:
1) RL, как правило, "забывает" меньше, чем SFT
2) На-policy RL (PPO) забывает меньше, чем off-policy RL (DQN)
3) Даже при совпадающей точности RL показывает меньшую катастрофическую забывчивость