RL的剃刀:在線策略RL的遺忘程度小於SFT。



即使在匹配的準確性下,RL顯示出較少的災難性遺忘

主要發現:
1) RL 比 SFT 更傾向於 "忘記"
2) 在策略 RL (PPO) 的遺忘程度低於離策略 RL (DQN)
3) 即使在匹配的準確率下,RL顯示出較少的災難性遺忘
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 4
  • 轉發
  • 分享
留言
0/400
ZKSherlockvip
· 6小時前
从信息论的角度来看,实际上非常迷人……较少的遗忘意味着更好的熵保持,老实说。
查看原文回復0
BrokenYieldvip
· 09-06 21:51
终于有些东西不会像我在2022年崩盘中的多头那样被遗忘
查看原文回復0
PumpDoctrinevip
· 09-06 21:41
SFT能不能长长记性啊
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)