RLの剃刀:オンポリシーRLはSFTよりも忘れにくい。



一致した精度でも、RLは壊滅的な忘却が少ないことを示しています。

主な調査結果:
1) RLはSFTよりも「忘れ」ることが少ない傾向があります。
2) オンポリシー RL (PPO) はオフポリシー RL (DQN) よりも忘れにくい。
3) 一致した精度でも、RLは壊滅的な忘却が少ないことを示しています
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • リポスト
  • 共有
コメント
0/400
ZKSherlockvip
· 15分前
実際、情報理論的な観点から見ると非常に魅力的です...忘却が少ないほど、エントロピーの保存が良くなると思います。
原文表示返信0
BrokenYieldvip
· 09-06 21:51
ついに、2022年のクラッシュで私のレバレッジロングが忘れたようなものではない何か。
原文表示返信0
PumpDoctrinevip
· 09-06 21:41
SFTは長く記憶できるのか?
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)