RL's Razor: O RL em política esquece menos do que o SFT.



Mesmo com precisão compatível, RL mostra menos esquecimento catastrófico

Principais descobertas:
1) RL tende a "esquecer" menos do que SFT
2) O RL em política (PPO) esquece menos do que o RL fora de política (DQN)
3) Mesmo com precisão igualada, RL apresenta menos esquecimento catastrófico
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
0/400
GasFeeWhisperervip
· 5h atrás
ppo ganhou de novo
Ver originalResponder0
ZKSherlockvip
· 12h atrás
na verdade, é bastante fascinante do ponto de vista da teoria da informação... menos esquecimento implica uma melhor preservação da entropia, para ser sincero
Ver originalResponder0
BrokenYieldvip
· 09-06 21:51
finalmente algo que não esquece como os meus longs alavancados na queda de 2022
Ver originalResponder0
PumpDoctrinevip
· 09-06 21:41
Será que o SFT consegue lembrar-se por mais tempo?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)