Cursor publie la technologie d'optimisation de l'inférence MoE Warp Decode, augmentant le débit de 1,84 fois sur le GPU Blackwell

BlockBeatNews

D’après le suivi de 1M AI News, l’outil de programmation IA Cursor publie un billet technique de blog qui présente sa méthode d’accélération de l’inférence MoE (modèle à experts multiples) développée en interne, Warp Decode. Cette méthode cible les scénarios de génération de tokens en micro-lots sur les GPU Nvidia Blackwell : elle inverse la stratégie de parallélisation traditionnelle centrée sur les experts pour adopter une approche centrée sur la sortie. Ainsi, dans le GPU, chaque warp (unité minimale de planification composée de 32 unités de traitement en parallèle) ne calcule qu’une seule valeur de sortie, parcourt indépendamment tous les experts auxquels les données sont routées, et effectue l’accumulation dans des registres, sans aucune synchronisation inter-warp ni tampon intermédiaire.

Le pipeline d’inférence MoE traditionnel comporte 8 étapes, dont 5 servent uniquement au transfert de données vers les vues des experts, sans effectuer de calculs réels. Warp Decode comprime l’ensemble de la couche de calcul MoE en seulement 2 kernels CUDA, en supprimant les étapes intermédiaires comme le remplissage, la dispersion, la fusion, etc. Pour chaque token, cela réduit de plus de 32KB les lectures et écritures de tampons intermédiaires.

Sur un GPU Nvidia B200, avec des tests réels sur un modèle de type Qwen-3, Warp Decode parvient à augmenter le débit de décodage de bout en bout de 1,84 fois. De plus, comme l’exécution se fait tout au long avec des calculs en précision BF16/FP32 et qu’elle évite les pertes dues à la quantification des quantités intermédiaires, la précision de sortie est proche d’un facteur 1,4 par rapport à la référence FP32. En termes d’utilisation de la bande passante matérielle, pour une taille de lot de 32, le débit soutenu atteint 3,95 TB/s, soit environ 58% de la bande passante de crête du B200 (6,8 TB/s). Cette optimisation accélère directement le cycle de développement et l’rythme de publication des versions du modèle de programmation développé en interne par Cursor, Composer.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire