RL'in Jileti: Politika bazlı RL, SFT'den daha az unutur.
Eşleşen doğrulukta bile, RL felaket unutmayı daha az gösteriyor.
Ana bulgular: 1) RL, SFT'ye göre daha az "unutma" eğilimindedir. 2) Politika üzeri RL (PPO), politika dışı RL (DQN)'ye göre daha az unutur. 3) Eşleşmiş doğrulukta bile, RL daha az felaket unutma gösteriyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
9 Likes
Reward
9
4
Repost
Share
Comment
0/400
ZKSherlock
· 6h ago
aslında bilgi teorisi perspektifinden oldukça ilginç... daha az unutma, daha iyi entropi korunumu anlamına geliyor doğrusu
View OriginalReply0
BrokenYield
· 09-06 21:51
sonunda 2022 çöküşündeki kaldıraçlı uzunlarım gibi unutmayan bir şey
RL'in Jileti: Politika bazlı RL, SFT'den daha az unutur.
Eşleşen doğrulukta bile, RL felaket unutmayı daha az gösteriyor.
Ana bulgular:
1) RL, SFT'ye göre daha az "unutma" eğilimindedir.
2) Politika üzeri RL (PPO), politika dışı RL (DQN)'ye göre daha az unutur.
3) Eşleşmiş doğrulukta bile, RL daha az felaket unutma gösteriyor.