D’après le suivi de 1M AI News, l’outil de programmation IA Cursor publie un billet technique de blog qui présente sa méthode d’accélération de l’inférence MoE (modèle à experts multiples) développée en interne, Warp Decode. Cette méthode cible les scénarios de génération de tokens en micro-lots sur les GPU Nvidia Blackwell : elle inverse la stratégie de parallélisation traditionnelle centrée sur les experts pour adopter une approche centrée sur la sortie. Ainsi, dans le GPU, chaque warp (unité minimale de planification composée de 32 unités de traitement en parallèle) ne calcule qu’une seule valeur de sortie, parcourt indépendamment tous les experts auxquels les données sont routées, et effectue l’accumulation dans des registres, sans aucune synchronisation inter-warp ni tampon intermédiaire.
Le pipeline d’inférence MoE traditionnel comporte 8 étapes, dont 5 servent uniquement au transfert de données vers les vues des experts, sans effectuer de calculs réels. Warp Decode comprime l’ensemble de la couche de calcul MoE en seulement 2 kernels CUDA, en supprimant les étapes intermédiaires comme le remplissage, la dispersion, la fusion, etc. Pour chaque token, cela réduit de plus de 32KB les lectures et écritures de tampons intermédiaires.
Sur un GPU Nvidia B200, avec des tests réels sur un modèle de type Qwen-3, Warp Decode parvient à augmenter le débit de décodage de bout en bout de 1,84 fois. De plus, comme l’exécution se fait tout au long avec des calculs en précision BF16/FP32 et qu’elle évite les pertes dues à la quantification des quantités intermédiaires, la précision de sortie est proche d’un facteur 1,4 par rapport à la référence FP32. En termes d’utilisation de la bande passante matérielle, pour une taille de lot de 32, le débit soutenu atteint 3,95 TB/s, soit environ 58% de la bande passante de crête du B200 (6,8 TB/s). Cette optimisation accélère directement le cycle de développement et l’rythme de publication des versions du modèle de programmation développé en interne par Cursor, Composer.