字节开源 MoE 通信优化技术
3 月 10日,字节豆包大模型团队官宣开源一项针对 MoE 架构的关键优化技术:COMET,可将大模型训练效率提升1.7倍,成本节省40%。 COMET 包含约 1.2 万行 C++ 和 CUDA 代码,以及 2 千行 Python 代码,并向开发者提供了一套友好的 Python API。 Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts 论文链接:https://arxiv.org/pdf/2502.19811开源地址:https://github.com/bytedance/flux 据悉,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万 GPU 小时训练算力。相较DeepSeek近期开源的DualPipe等MoE优化方案,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,无需对训练框架进行侵入式改动。 下图为 COMET 的设计结构: 因简洁、通用的设计理念,该工作以5/5/5/4 的高分入选全球机器学习系统顶级会议 MLSys...
