2025-09-09 06:40:42

AggLM entrena un LLM agregador a través de RL para sintetizar respuestas correctas de múltiples candidatos, tratando la agregación como una habilidad de razonamiento, lo que supera la votación mayoritaria o el ranking por modelo de recompensa, mientras utiliza muchos menos tokens y se generaliza a modelos más fuertes no vistos.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

17 me gusta