Le nouveau document de FAIR présente ExIt (Itération Exploratoire), une méthode basée sur l'apprentissage par renforcement qui entraîne les LLM sur des perfectionnements en une seule étape mais s'appuie sur leurs propres sorties—débloquant une auto-amélioration efficace en plusieurs étapes lors de l'inférence et réalisant une augmentation de 22 % sur MLE-bench.

STEP1.62%
OWN-2.94%
MULTI-4.04%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
NewPumpamentalsvip
· Il y a 10h
Le renforcement d'apprentissage est une bonne chose.
Voir l'originalRépondre0
RugpullTherapistvip
· 09-09 07:17
Une bonne idée d'innovation
Voir l'originalRépondre0
ResearchChadButBrokevip
· 09-09 07:16
C'est un résultat très intéressant.
Voir l'originalRépondre0
DaoGovernanceOfficervip
· 09-09 07:05
Empiriquement parlant, une application RL fascinante.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)