2025-09-09 06:40:42

AggLM treina um LLM agregador via RL para sintetizar respostas corretas a partir de múltiplos candidatos—tratando a agregação como uma habilidade de raciocínio—que supera a votação da maioria ou a classificação por modelo de recompensa, utilizando muitos menos tokens e generalizando para modelos não vistos mais fortes.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

17 Curtidas