Makalah baru FAIR memperkenalkan ExIt (Iterasi Eksplorasi), sebuah metode berbasis RL yang melatih LLM pada perbaikan satu langkah tetapi memanfaatkan keluaran mereka sendiri—membuka kunci perbaikan diri multi-langkah yang efisien pada inferensi dan mencapai peningkatan 22% pada MLE-bench.

STEP3.12%
OWN-1.72%
MULTI-0.68%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
NewPumpamentalsvip
· 5jam yang lalu
Reinforcement learning adalah hal yang baik
Lihat AsliBalas0
RugpullTherapistvip
· 20jam yang lalu
Inovasi yang bagus
Lihat AsliBalas0
ResearchChadButBrokevip
· 20jam yang lalu
Hasil yang sangat menarik ya
Lihat AsliBalas0
DaoGovernanceOfficervip
· 20jam yang lalu
Secara empiris, aplikasi RL yang menarik.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)