FAIR'ın yeni makalesi, ExIt ( Keşif İterasyonu )'nu tanıtıyor; bu, LLM'leri tek adımlı iyileştirmeler üzerinde eğiten ancak kendi çıktılarından avantaj sağlayan RL tabanlı bir yöntemdir—çıkarsama aşamasında verimli çok adımlı kendi kendine iyileşmeyi açığa çıkararak MLE-bench üzerinde %22'lik bir artış sağlıyor.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
14 Likes
Reward
14
4
Repost
Share
Comment
0/400
NewPumpamentals
· 10h ago
Güçlendirilmiş öğrenme iyi bir şey
View OriginalReply0
RugpullTherapist
· 09-09 07:17
İyi bir yenilikçi düşünce.
View OriginalReply0
ResearchChadButBroke
· 09-09 07:16
Çok ilginç bir sonuç.
View OriginalReply0
DaoGovernanceOfficer
· 09-09 07:05
Ampirik olarak konuşursak, ilginç bir RL uygulaması.
FAIR'ın yeni makalesi, ExIt ( Keşif İterasyonu )'nu tanıtıyor; bu, LLM'leri tek adımlı iyileştirmeler üzerinde eğiten ancak kendi çıktılarından avantaj sağlayan RL tabanlı bir yöntemdir—çıkarsama aşamasında verimli çok adımlı kendi kendine iyileşmeyi açığa çıkararak MLE-bench üzerinde %22'lik bir artış sağlıyor.