🔥Cursor lança a tecnologia de otimização de inferência MoE Warp Decode, aumentando a taxa de processamento em 1,84 vezes na GPU Blackwell


A ferramenta de programação AI Cursor lançou um blog técnico apresentando seu método de aceleração de inferência MoE, Warp Decode. Este método, voltado para cenários de geração de tokens em pequenos lotes na GPU Nvidia Blackwell, inverte a estratégia tradicional de paralelismo centrado em especialistas, adotando uma abordagem centrada na saída: cada warp na GPU é responsável por calcular um valor de saída, percorrendo de forma independente todos os especialistas roteados para ele e realizando a soma acumulada nos registradores, sem necessidade de sincronização entre warps ou buffers intermediários. A pipeline tradicional de inferência MoE possui 8 fases, das quais 5 são usadas apenas para transferência de dados. Warp Decode comprime toda a camada de cálculo MoE em 2 unidades de processamento (CU)…
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar