Нова стаття FAIR представляє ExIt (Exploratory Iteration), метод на основі RL, який навчає LLM на одноетапних вдосконаленнях, але використовує їхні власні виходи для початкового навчання—відкриваючи ефективне багатоетапне самоудосконалення під час інференції та досягаючи 22% приросту на MLE-bench.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Нова стаття FAIR представляє ExIt (Exploratory Iteration), метод на основі RL, який навчає LLM на одноетапних вдосконаленнях, але використовує їхні власні виходи для початкового навчання—відкриваючи ефективне багатоетапне самоудосконалення під час інференції та досягаючи 22% приросту на MLE-bench.