Нова стаття FAIR представляє ExIt (Exploratory Iteration), метод на основі RL, який навчає LLM на одноетапних вдосконаленнях, але використовує їхні власні виходи для початкового навчання—відкриваючи ефективне багатоетапне самоудосконалення під час інференції та досягаючи 22% приросту на MLE-bench.

STEP3.12%
OWN-1.72%
MULTI-0.82%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
NewPumpamentalsvip
· 5год тому
Посилене навчання — це хороша річ
Переглянути оригіналвідповісти на0
RugpullTherapistvip
· 20год тому
Гарна інноваційна ідея
Переглянути оригіналвідповісти на0
ResearchChadButBrokevip
· 20год тому
Дуже цікаві результати.
Переглянути оригіналвідповісти на0
DaoGovernanceOfficervip
· 20год тому
Емпірично кажучи, захоплююче застосування RL.
Переглянути оригіналвідповісти на0
  • Закріпити