El Rayo de RL: El RL en política olvida menos que SFT.



Incluso con una precisión igualada, RL muestra un menor olvido catastrófico.

Hallazgos clave:
1) RL tiende a "olvidar" menos que SFT
2) RL en política ( PPO ) olvida menos que RL fuera de política ( DQN )
3) Incluso con una precisión igualada, RL muestra un olvido catastrófico menor
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
GasFeeWhisperervip
· hace5h
ppo volvió a ganar
Ver originalesResponder0
ZKSherlockvip
· hace12h
en realidad es bastante fascinante desde una perspectiva teórica de la información... menos olvido implica una mejor preservación de la entropía, la verdad.
Ver originalesResponder0
BrokenYieldvip
· 09-06 21:51
finalmente algo que no olvida como mis largos apalancados en el colapso de 2022
Ver originalesResponder0
PumpDoctrinevip
· 09-06 21:41
¿SFT puede recordar por mucho tiempo?
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)