您现在的位置是:首页 > 文章详情

DeepSeek 新论文公开 V3 大模型降本方法

日期:2025-05-15点击:45

DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,把 DeepSeek-V3 在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。

论文主要介绍了 DeepSeek-V3 在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。

关键结论

  • 内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
  • 成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
  • 推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
  • 低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
  • 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。

论文还提出了对未来 AI 硬件的建议和展望。详情查看:https://arxiv.org/pdf/2505.09343

原文链接:https://www.oschina.net/news/350049
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章