2025-09-06 21:21:32

RL's Razor: Оффлайновое обучение с подкреплением забывает меньше, чем SFT.

Даже при совпадающей точности RL демонстрирует меньше катастрофического забвения

Ключевые выводы:
1) RL, как правило, "забывает" меньше, чем SFT
2) На-policy RL (PPO) забывает меньше, чем off-policy RL (DQN)
3) Даже при совпадающей точности RL показывает меньшую катастрофическую забывчивость

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков

Награда
9
4
Репост
Поделиться

комментарий

0/400

ZKSherlock

· 6ч назад

на самом деле это довольно увлекательно с точки зрения теории информации... меньше забывания подразумевает лучшее сохранение энтропии, если быть честным

Посмотреть ОригиналОтветить0

BrokenYield

· 09-06 21:51

наконец-то что-то, что не забывает, как мои лонги с кредитным плечом в крахе 2022 года

Посмотреть ОригиналОтветить0

PumpDoctrine

· 09-06 21:41

Может ли SFT запомнить это надолго?

Посмотреть ОригиналОтветить0

Тема
#Gate Square Mid Autumn Creator Incentive
18600 Популярность
#My Top AI Coin
10582 Популярность
#Altcoin Market Rebound
25433 Популярность
#Gate Alpha New Listings
33487 Популярность
#Fed Rate Cut Expectations
66295 Популярность

Закрепить

Карта сайта