Pangkas RL: RL on-policy melupakan lebih sedikit daripada SFT.
Bahkan dengan akurasi yang cocok, RL menunjukkan pelupaan yang kurang katastropik.
Temuan kunci: 1) RL cenderung "melupakan" lebih sedikit daripada SFT 2) RL kebijakan (PPO) melupakan lebih sedikit dibandingkan RL off-policy (DQN) 3) Bahkan pada akurasi yang sama, RL menunjukkan lupa bencana yang lebih sedikit
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
5
Posting ulang
Bagikan
Komentar
0/400
GasFeeWhisperer
· 4jam yang lalu
ppo sudah menang lagi
Lihat AsliBalas0
ZKSherlock
· 12jam yang lalu
sebenarnya cukup menarik dari perspektif teori informasi... kurang melupakan berarti pelestarian entropi yang lebih baik sejujurnya
Lihat AsliBalas0
BrokenYield
· 09-06 21:51
akhirnya sesuatu yang tidak melupakan seperti longs terleveraged saya dalam kejatuhan 2022
Pangkas RL: RL on-policy melupakan lebih sedikit daripada SFT.
Bahkan dengan akurasi yang cocok, RL menunjukkan pelupaan yang kurang katastropik.
Temuan kunci:
1) RL cenderung "melupakan" lebih sedikit daripada SFT
2) RL kebijakan (PPO) melupakan lebih sedikit dibandingkan RL off-policy (DQN)
3) Bahkan pada akurasi yang sama, RL menunjukkan lupa bencana yang lebih sedikit