Cursor 发布全球最快 MXFP8 MoE 内核
Cursor 团队发表博客介绍他们从零构建的 MXFP8 内核实现 1.5 倍 MoE 训练速度提升的过程。
在过去几周里,我们从 GPU 内核层面彻底重写了整个 MoE (专家混合模型) 层,并且完全不依赖任何 CUDA 库。我们使用的是纯粹、经典的 CUDA 和 PTX,并在此基础上融合了一些 ThunderKittens 的技术。
最终,我们的 MoE 层在前向和反向传播中的性能都提升了 3.5 倍,这使得模型在 Blackwell 架构上的端到端训练速度提升了 1.5 倍,并且比我们最初在 Hopper 上的方案快了 2 倍。
我们相信,我们的技术栈比当今任何可用的开源方案组合都要快。
为解决 MoE 层在训练中速度过慢的问题,Cursor 团队在内核级别对其进行了完全重建,并转向使用 MXFP8 格式。在训练其编程模型时,MoE 层曾占据了 27% 至 53% 的训练时间。
经过优化后,新的 MXFP8 MoE 内核实现了 MoE 层速度提升 3.5 倍,并带来了 1.5 倍。
