华为发布准万亿模型盘古 Ultra MoE
华为推出参数规模7180亿的新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。主要的架构和训练特性如下:
- 超大规模和超高稀疏比:采用 256 个路由专家,每个 token 激活 8 个专家,模型总参数量 718B,激活量 39B。
- MLA 注意力机制:引入 MLA(Multi-head Latent Attention),有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈,优于传统 GQA 方案。
- MTP 多头扩展:采用单头 MTP 进行训练,后续复用 MTP 参数扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
- Dropless 训练:采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题,并且提升训练的数据效率。
- RL 训练:采用迭代难例挖掘与多能力项均衡的奖励函数,并参考 GRPO 算法,提升了模型的训练效率与最终推理性能。
华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上,华为首次披露在昇腾CloudMatrix 384超节点上,打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。
此外,近期发布的盘古Pro MoE大模型,在参数量为720亿,激活160亿参数量的情况下,在大模型榜单SuperCLUE的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
RWKV 社区五月动态:多篇高质量论文、RWKV-8 第一个新特性公布!
欢迎大家收看《RWKV 社区最新动态》,本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。 只需 3 分钟,快速了解 RWKV 社区 5 月都有哪些新鲜事! 5 月动态省流版(TL;DR) RWKV 学术研究动态 新论文:Multi-View Learning with Context-Guided Receptance for Image Denoising(RWKV 图像去噪,已被 IJCAI 主会接收) 新论文:RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization(RWKV 模型量化,已入选 ICML2025) 新论文:QuantumRWKV:Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting(RWKV 量子增强时序预测) 新论文:DualComp: End-to-End Learning of a Unified Dual-Mod...
- 下一篇
从公益初心到商业化探索,开源中国助推中国开源生态之路
我们怀揣梦想、坚持不懈在做一件很多人认为是很“傻”的事情,之间也走过不少的弯路,但最终还是回到“傻”的路上。哪位牛人说过,傻的事情坚持做到极致,就会很牛。 而我们离牛还有十万八千里,没有筋斗云,但不缺意志和情怀,再加上有你的支持,梦想终将实现。 —— 开源中国创始人红薯,2013.08.31 中国开源,从使用者到扛把子 2025 年春节,来自中国的开源大模型 DeepSeek-R1 引爆全球,这一模型在数学、推理等多项基准测试中已追平甚至超越国际一线闭源模型,迅速占领了全球技术头条。 这一“DeepSeek 时刻”不仅打破了美国对 AI 技术话语权的垄断,也为全球 AI 生态注入了开放、多元的新动能;它也标志着中国开源生态在底层模型研发和开放协作方面已具备世界级竞争力。 而这背后,是又一次深刻有力的印证:在全球开源格局中,中国正以前所未有的速度完成从“大量使用”到“深度共建”、从“跟随者”到“领跑者”的华丽转身。 在全球开源舞台上,中国开发者与社区正从“采纳者”向“主导者”转变,报告显示,自 2013 年以来,中国贡献持续位列全球前五且增速领先,贡献了大量仓库、PR 和 Issue。...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- MySQL8.0.19开启GTID主从同步CentOS8