您现在的位置是：首页 > 文章详情

Cursor 发布全球最快 MXFP8 MoE 内核

日期：2025-08-22点击：122收藏

Cursor 团队发表博客介绍他们从零构建的 MXFP8 内核实现 1.5 倍 MoE 训练速度提升的过程。

在过去几周里，我们从 GPU 内核层面彻底重写了整个 MoE (专家混合模型) 层，并且完全不依赖任何 CUDA 库。我们使用的是纯粹、经典的 CUDA 和 PTX，并在此基础上融合了一些 ThunderKittens 的技术。

最终，我们的 MoE 层在前向和反向传播中的性能都提升了 3.5 倍，这使得模型在 Blackwell 架构上的端到端训练速度提升了 1.5 倍，并且比我们最初在 Hopper 上的方案快了 2 倍。

我们相信，我们的技术栈比当今任何可用的开源方案组合都要快。