2025-09-09 06:47:06

Makalah baru FAIR memperkenalkan ExIt (Iterasi Eksplorasi), sebuah metode berbasis RL yang melatih LLM pada perbaikan satu langkah tetapi memanfaatkan keluaran mereka sendiri—membuka kunci perbaikan diri multi-langkah yang efisien pada inferensi dan mencapai peningkatan 22% pada MLE-bench.

OWN-1.72%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

14 Suka