aslında bilgi teorisi perspektifinden oldukça ilginç... daha az unutma, daha iyi entropi korunumu anlamına geliyor doğrusu

actually quite fascinating from an information theoretic perspective... less forgetting implies better entropy preservation tbh

sonunda 2022 çöküşündeki kaldıraçlı uzunlarım gibi unutmayan bir şey

finally something that doesn't forget like my leveraged longs in 2022 crash

SFT uzun süre hafızasını tutabilir mi?

福利中心

小红花-Learn & Explore-博客

小红花-Learn & Explore-快讯

币圈-币圈-未来事件

小红花-Learn & Explore-聊天室

小红花-Learn & Explore-直播

小红花-Learn & Explore-动态

币圈

芝麻金融-更多-ETH2.0挖矿

芝麻金融-更多-法币理财

芝麻金融-更多-抵押借币

链上赚币

芝麻金融-理财-双币宝

芝麻金融-理财-定期理财(屯币)

芝麻金融-理财-结构性理财

芝麻金融-理财-理财宝

芝麻金融-更多-财富管理

芝麻金融-理财-余币宝

量化基金

GT挖矿

芝麻金融-更多（理财产品）

芝麻金融-理财（打新）

launchpool

launchpad

赚币-HODLer Airdrop

candy_drop

web3 Airdrop

BTC挖矿

VIP专享

大客户借贷

GUSD挖矿

借贷中心

持币生息

赚币

模拟交易

衍生品-期权

衍生品-交割合约

衍生品-永续合约

合约入门

合约活动

衍生品-统一账户

衍生品

交易-杠杆ETF

交易-杠杆交易

交易-闪兑

交易-现货交易

交易-创新交易

交易-交易工具

交易-交易类型

交易-合约跟单

交易-机器人广场

交易-盘前交易

Alpha

交易

行情

买币-gateCard

卖币

买币-快捷交易

买币

买币-paywith

法币定投

买币-buy_coins_head

小红花-推广

新手指南

活动中心

小红花-Learn & Explore-学院

小红花-Exchange-最新公告

小红花-Exchange-帮助中心

gate商店

小红花-Promotions-邀请计划

小红花-promotions-代理商

储备金

vip服务

合作伙伴

小红花-Promotions-机构和VIP服务

Gate OTC

cextg小程序

机构-经纪商项目

资管业务

做市商计划

web3

交易机器人(账户)

RL&#39;in Jileti: Politika bazlı RL, SFT&#39;den daha az unutur.

Eşleşen doğrulukta bile, RL felaket unutmayı daha az gösteriyor.

Ana bulgular:
1) RL, SFT&#39;ye göre daha az "unutma" eğilimindedir.
2) Politika üzeri RL (PPO), politika dışı RL (DQN)&#39;ye göre daha az unutur.
3) Eşleşmiş doğrulukta bile, RL daha az felaket unutma gösteriyor.

RAZOR

RL's Razor: On-policy RL forgets less than SFT.

Even at matched accuracy, RL shows less catastrophic forgetting

Key findings:
1) RL tends to "forget" less than SFT
2) On-policy RL (PPO) forgets less than off-policy RL (DQN)
3) Even at matched accuracy, RL shows less catastrophic forgetting