您现在的位置是:首页 > 文章详情

Cursor 发布全球最快 MXFP8 MoE 内核

日期:2025-08-22点击:18

Cursor 团队发表博客介绍他们从零构建的 MXFP8 内核实现 1.5 倍 MoE 训练速度提升的过程。

在过去几周里,我们从 GPU 内核层面彻底重写了整个 MoE (专家混合模型) 层,并且完全不依赖任何 CUDA 库。我们使用的是纯粹、经典的 CUDA 和 PTX,并在此基础上融合了一些 ThunderKittens 的技术。

最终,我们的 MoE 层在前向和反向传播中的性能都提升了 3.5 倍,这使得模型在 Blackwell 架构上的端到端训练速度提升了 1.5 倍,并且比我们最初在 Hopper 上的方案快了 2 倍。

我们相信,我们的技术栈比当今任何可用的开源方案组合都要快。

为解决 MoE 层在训练中速度过慢的问题,Cursor 团队在内核级别对其进行了完全重建,并转向使用 MXFP8 格式。在训练其编程模型时,MoE 层曾占据了 27% 至 53% 的训练时间。

经过优化后,新的 MXFP8 MoE 内核实现了 MoE 层速度提升 3.5 倍,并带来了 1.5 倍。

原文链接:https://www.oschina.net/news/367814
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章