DeepSeek 新论文公开 V3 大模型降本方法
DeepSeek 团队近日发表了新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,把 DeepSeek-V3 在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。
论文主要介绍了 DeepSeek-V3 在硬件架构方面的挑战和创新,以及如何通过软硬件协同设计实现高效训练和推理。
关键结论
- 内存效率:DeepSeek-V3 通过 MLA 将 KV 缓存大小显著减少到每个 token 仅需 70 KB,远低于其他模型(如 Qwen-2.5 72B 的 327 KB 和 LLaMA-3.1 405B 的 516 KB)。这使得模型更适合处理长文本和资源受限的环境。
- 成本效益:MoE 架构允许在训练时仅激活部分参数,从而显著降低计算需求。例如,DeepSeek-V3 在扩展到 671B 参数时,每个 token 的激活参数仅为 37B,相比全参数激活的密集模型(如 72B 的 Qwen 和 405B 的 LLaMA),计算成本大幅降低。
- 推理速度:通过重叠计算和通信以及多令牌预测模块,DeepSeek-V3 在推理时能够显著提高吞吐量和响应速度。例如,多令牌预测模块可以将生成速度提高 1.8 倍。
- 低精度计算:FP8 混合精度训练在 DeepSeek-V3 中首次应用于大规模模型训练,通过细粒度量化策略,相对 BF16 的精度损失控制在 0.25% 以内。
- 网络优化:采用多平面两层 Fat-Tree 网络拓扑,相比传统的三层 Fat-Tree 拓扑,显著降低了网络成本,并提高了网络的鲁棒性和可扩展性。
论文还提出了对未来 AI 硬件的建议和展望。详情查看:https://arxiv.org/pdf/2505.09343

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
vivo 开启顶尖人才招募计划:涉及芯片、AI 大模型等领域,称薪酬上不封顶
vivo近日启动了一项名为“蓝极星计划”的顶尖人才招募项目。 招募信息显示,蓝极星计划的定位为vivo最核心的人才战略方案,面向全球高校顶尖技术人才。在待遇方面,vivo承诺薪酬上不封顶。 不过,蓝极星计划的门槛也很高,仅向博士生开放。此次招募的岗位涉及XR、AI大模型、影像、芯片、器件开发等核心技术领域,岗位类型十余个。总体招募规模在百人左右,其中以影像方向名额最多。
- 下一篇
从编译器、游戏引擎到游戏掌机,我是这样做独立游戏的
引言 自己开发制作游戏是一个儿时起就有的梦,特别是长时间接触魔兽争霸3世界编辑器后,我对游戏引擎和开发工具也有着特别的兴趣。学生时代接触编程以后,梦的外延开始扩散,不满足于使用各式编程语言做开发,开始维护一门自己喜欢的写游戏业务逻辑的编程语言项目 Yuescript,因为学习图形学和作为练手项目重写 Cocos2d-x 有了 Dora SSR 游戏引擎。工作后因为对游戏掌机的喜爱,开始与伙伴合作研发自由开放的可编程游戏掌机设备——吉祥机,实现自己游戏梦终极的 Digital Freedom。 游戏脚本语言的乐趣与挑战 各式新的编程语言的学习过程是充满乐趣的,对不同语言工具的接触也会感受到不同的编程理念和程序设计思想。为了学习制作游戏,对于复杂多变游戏玩法的脚本编程(Scripting),我也形成了自己编程偏好,即使用一门尽可能简洁和表达力强的编程语言来编写容易变化的业务逻辑。可以转译为 Lua 语言执行的 Yuescript 语言开源项目就是我为了满足这个需求的产物。后来随着使用自己的 Dora SSR 游戏引擎遇到更多的游戏开发场景,我又为 Dora SSR 开源游戏引擎引入...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8编译安装MySQL8.0.19
- CentOS关闭SELinux安全模块
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群