您现在的位置是:首页 > 文章详情

DeepSeek 开源周第四日:DualPipe、EPLB 优化并行策略

日期:2025-02-27点击:106

DeepSeek“开源周”的进度已进行到第四天,今天开源优化并行策略的项目。

  • DualPipe - 一种用于 V3 / R1 训练中计算-通信重叠的双向管道并行算法。

  • EPLB - 一种用于 V3 / R1 的专家并行负载平衡器。

  • 分析 V3 / R1 中的计算-通信重叠。

具体项目介绍和链接如下:

“双管道(DualPipe)”是在《深度搜索-V3 技术报告》中引入的一种创新的双向流水线并行算法。它实现了正向和反向计算-通信阶段的完全重叠,同时也减少了流水线气泡。

在使用专家并行(EP)时,不同的专家被分配到不同的 GPU。由于不同专家的负载可能因当前工作负载而异,因此保持不同 GPU 的负载平衡非常重要。正如在 DeepSeek-V3 论文中所述,我们采用冗余专家策略,复制高负载的专家。

然后,我们通过启发式方法将复制的专家分配到 GPU 上,以确保不同 GPU 之间的负载平衡。

此外,由于 DeepSeek-V3 中使用了分组受限的专家路由,我们还尽可能尝试将同一组的专家放置在同一节点上,以减少节点间的数据流量。为了便于复现和部署,我们在eplb.py中开源了我们部署的 EP 负载均衡算法。该算法根据估计的专家负载计算平衡的专家复制和放置计划。

请注意,预测专家负载的确切方法不在此存储库的范围内。一种常见的方法是使用历史统计数据的移动平均值。

在这里,我们公开分享来自我们的训练和推理框架的分析数据,以帮助社区更好地理解通信-计算重叠策略和底层实现细节。

原文链接:https://www.oschina.net/news/335953
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章