2025-09-06 21:21:32

El Rayo de RL: El RL en política olvida menos que SFT.

Incluso con una precisión igualada, RL muestra un menor olvido catastrófico.

Hallazgos clave:
1) RL tiende a "olvidar" menos que SFT
2) RL en política ( PPO ) olvida menos que RL fuera de política ( DQN )
3) Incluso con una precisión igualada, RL muestra un olvido catastrófico menor

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
5
Republicar
Compartir

Comentar

0/400

GasFeeWhisperer

· hace5h

ppo volvió a ganar

Ver originalesResponder0

ZKSherlock

· hace12h

en realidad es bastante fascinante desde una perspectiva teórica de la información... menos olvido implica una mejor preservación de la entropía, la verdad.

Ver originalesResponder0

BrokenYield

· 09-06 21:51

finalmente algo que no olvida como mis largos apalancados en el colapso de 2022

Ver originalesResponder0

PumpDoctrine

· 09-06 21:41

¿SFT puede recordar por mucho tiempo?

Ver originalesResponder0

Tema
#Gate Square Mid Autumn Creator Incentive
24k Popularidad
#My Top AI Coin
14k Popularidad
#Altcoin Market Rebound
29k Popularidad
#Gate Alpha New Listings
35k Popularidad
#Fed Rate Cut Expectations
67k Popularidad

Anclado