2026-04-23 04:54:56
Perplexity révèle sa méthode de post-formation pour des agents de recherche web ; le modèle basé sur Qwen3.5 surpasse GPT-5.4 en précision et en coût
Perplexity utilise la SFT suivie par le RL avec des modèles Qwen3.5, en s’appuyant sur un ensemble de données QA multi-étapes et des contrôles par grille d’évaluation pour améliorer la précision et l’efficacité de la recherche, en atteignant des performances FRAMES de niveau supérieur.
Résumé : le flux de travail de post-formation de Perplexity pour les agents de recherche web combine un apprentissage supervisé par fine-tuning (SFT) afin de garantir le respect des instructions et la cohérence linguistique avec un apprentissage par renforcement en ligne (RL) via l’algorithme GRPO. La phase RL exploite un jeu de données propriétaire vérifiable de questions-réponses multi-étapes et des données conversationnelles basées sur des grilles d’évaluation pour empêcher la dérive de la SFT, avec un filtrage des récompenses et des pénalités d’efficacité au sein des groupes. L’évaluation montre que Qwen3.5-397B-SFT-RL atteint les meilleures performances FRAMES, avec 57,3 % d’exactitude avec un seul appel d’outil et 73,9 % avec quatre appels, à 0,02 $ par requête, surpassant GPT-5.4 et Claude Sonnet 4.6 sur ces métriques. La tarification est basée sur l’API et exclut la mise en cache.