DeepSeek 致谢腾讯技术团队
日前,腾讯技术团队针对 DeepSeek 开源的 DeepEP 通信框架进行深度优化,使其在多种网络环境下均实现显著性能提升。
DeepEP 是一个为专家混合(MoE)和专家并行(EP)量身定制的通信库。它提供高吞吐量和低延迟的全对全 GPU 内核,这些内核也被称为 MoE 派发和组合。该库还支持低精度运算,包括 FP8。
经测试,优化后的通信框架性能在 RoCE 网络环境提升 100%,IB 网络环境提升 30%,为企业开展 AI 大模型训练提供更高效的解决方案。
该技术方案获得了 DeepSeek 公开致谢,称这是一次「huge speedup」代码贡献。
自今年 2 月 DeepSeek 开源包括 DeepEP 在内的五大代码库以来,该团队便向业界展示了如何利用有限的硬件资源实现接近万卡集群的性能。
在这些技术中,DeepEP 凭借突破性的方法提升了 300% 的通信效率,成功解决了 MoE 架构大模型对英伟达 NCCL 的依赖问题。但该技术在成本较低、适用面更广的 RoCE 网络环境中表现不佳,限制了其在更广泛场景的应用。这一痛点引发了开源社区的持续讨论。
据悉,腾讯星脉网络团队在 DeepEP 开源后便展开技术攻关,发现两大关键瓶颈:一是对于双端口网卡带宽利用率不足,二是 CPU 控制面交互存在时延。
在腾讯的技术优化下,DeepEP 不仅在 RoCE 网络实现性能翻倍,反哺到 IB(InfiniBand)网络时更使原有通信效率再提升 30%。
目前,该技术已全面开源,并成功应用于腾讯混元大模型等项目的训练推理,在腾讯星脉与 H20 服务器构建的高性能环境中,这套方案展现出出色的通用性。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微软旗下 AI 开发平台支持 A2A 协议
微软宣布,旗下 Azure AI Foundry 和 Microsoft Copilot Studio 两大开发平台已支持最新的 Agent 开发协议 A2A,并且还加入了 GitHub 上的 A2A 工作组,为协议和工具做出贡献。 谷歌在 4 月初发布的 A2A 允许智能体在不同的云、应用程序和服务之间协同工作。使用该协议,Agent 可以交换目标并调用操作。开发人员可以获得一套可互操作的组件,用来确保代理协作安全地进行。 一旦 Azure AI Foundry 和 Copilot Studio 提供 A2A 支持,使用这些平台构建的代理将能够利用外部代理执行任务,包括使用其他工具创建的代理或托管在微软之外的代理。例如,微软代理可以在谷歌代理起草电子邮件邀请函时安排会议。 微软 CEO Satya Nadella 对此给出了高度评价,表示像 A2A 和 MCP 这样的开放协议是实现智能体网络的关键。随着 Copilot Studio 和 Azure AI Foundry 开始支持 A2A,客户将能够构建从设计上就具备互操作性的智能体系统。
- 下一篇
Anthropic API 已支持 Web 搜索
Anthropic 宣布已通过 API 提供 Web 搜索功能,开发者可以用最新的数据来让 Claude 知识更全面。 也就是说开发者可以通过 AnthropicAPI 让 Claude 访问最新的网络信息,使得这款 AI 助手能够进行多次渐进式搜索,从而汇总出包含引用来源的全面回答。 Anthropic 这一举措意味着,基于 Web 搜索 API,开发者现在可以构建能够利用最新信息的 AI 解决方案,而无需自行搭建和管理 Web 搜索基础设施。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7设置SWAP分区,小内存服务器的救世主
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Hadoop3单机部署,实现最简伪集群