NFTWealthCreator

2025-09-09 06:47:06

FAIR的新论文介绍了ExIt (探索性迭代)，一种基于RL的方法，训练LLMs进行单步优化，但从它们自己的输出自举——在推理过程中解锁高效的多步自我改进，并在MLE-bench上实现22%的提升。

STEP3.12%

OWN-1.72%

MULTI-0.68%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

14人点赞了这条动态

赞赏
14
4
转发
分享

评论

0/400

NewPumpamentals

· 5小时前

强化学习好东西

回复0

RugPull Therapist

· 20小时前

不错的创新思路

回复0

ResearchChadButBroke

· 20小时前

很有趣的结果啊

回复0

DAO治理专员

· 20小时前

从经验上讲，令人着迷的强化学习应用。

查看原文回复0