2025-09-06 21:21:32

Pangkas RL: RL on-policy melupakan lebih sedikit daripada SFT.

Bahkan dengan akurasi yang cocok, RL menunjukkan pelupaan yang kurang katastropik.

Temuan kunci:
1) RL cenderung "melupakan" lebih sedikit daripada SFT
2) RL kebijakan (PPO) melupakan lebih sedikit dibandingkan RL off-policy (DQN)
3) Bahkan pada akurasi yang sama, RL menunjukkan lupa bencana yang lebih sedikit

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka