NFTWealthCreator

2025-09-09 06:47:06

FAIR的新論文介紹了ExIt (探索性迭代)，一種基於RL的方法，訓練LLMs進行單步優化，但從它們自己的輸出自舉——在推理過程中解鎖高效的多步自我改進，並在MLE-bench上實現22%的提升。

STEP0.31%

OWN-1.65%

MULTI-1.99%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

14人點讚了這條動態

讚賞
14
4
轉發
分享

留言

0/400

NewPumpamentals

· 32分鐘前

强化学习好东西

回復0

RugPull Therapist

· 15小時前

不错的创新思路

回復0

ResearchChadButBroke

· 15小時前

很有趣的结果啊

回復0

DAO治理专员

· 15小時前

从经验上讲，令人着迷的强化学习应用。

查看原文回復0

話題
#Gate廣場創作點亮中秋
23507 熱度
#我最看好的AI代幣
13709 熱度
#山寨幣市場回暖
28762 熱度
#Gate Alpha 上新
33894 熱度
#美聯儲降息預期
66535 熱度