字节开源 MoE 通信优化技术
3 月 10日,字节豆包大模型团队官宣开源一项针对 MoE 架构的关键优化技术:COMET,可将大模型训练效率提升1.7倍,成本节省40%。
COMET 包含约 1.2 万行 C++ 和 CUDA 代码,以及 2 千行 Python 代码,并向开发者提供了一套友好的 Python API。
Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts
论文链接:https://arxiv.org/pdf/2502.19811
开源地址:https://github.com/bytedance/flux
据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。
下图为 COMET 的设计结构:
因简洁、通用的设计理念,该工作以5/5/5/4 的高分入选全球机器学习系统顶级会议 MLSys 2025 ,被认为“在大规模生产环境中极具应用潜力”。
值得一提的是,COMET 与Deepseek 研发的DualPipe方案还可以联合使用。在降低MoE通信开销上,COMET 采用了计算-通信融合算子的优化方式, DualPipe则通过排布算子来掩盖通信,两种方案并不冲突,结合使用或将更大幅度压缩模型训练成本。

