El nuevo documento de FAIR presenta ExIt (Iteración Exploratoria), un método basado en RL que entrena LLMs en refinamientos de un solo paso pero se apoya en sus propias salidas—desbloqueando una mejora autosuficiente eficiente de múltiples pasos en la inferencia y logrando un aumento del 22% en MLE-bench.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
14 me gusta
Recompensa
14
4
Republicar
Compartir
Comentar
0/400
NewPumpamentals
· hace5h
El aprendizaje reforzado es algo bueno
Ver originalesResponder0
RugpullTherapist
· hace20h
Buena idea innovadora
Ver originalesResponder0
ResearchChadButBroke
· hace20h
Es un resultado muy interesante.
Ver originalesResponder0
DaoGovernanceOfficer
· hace20h
Hablando empíricamente, fascinante aplicación de RL.
El nuevo documento de FAIR presenta ExIt (Iteración Exploratoria), un método basado en RL que entrena LLMs en refinamientos de un solo paso pero se apoya en sus propias salidas—desbloqueando una mejora autosuficiente eficiente de múltiples pasos en la inferencia y logrando un aumento del 22% en MLE-bench.