华为发布准万亿模型盘古 Ultra MoE-低调大师

华为发布准万亿模型盘古 Ultra MoE

2025-05-30 223

华为推出参数规模7180亿的新模型——盘古Ultra MoE，这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。主要的架构和训练特性如下：

超大规模和超高稀疏比：采用 256 个路由专家，每个 token 激活 8 个专家，模型总参数量 718B，激活量 39B。
MLA 注意力机制：引入 MLA（Multi-head Latent Attention），有效压缩 KV Cache 空间，缓解推理阶段的内存带宽瓶颈，优于传统 GQA 方案。
MTP 多头扩展：采用单头 MTP 进行训练，后续复用 MTP 参数扩展至多头结构，实现多 Token 投机推理，加速整体推理过程。
Dropless 训练：采用 Dropless 训练可以避免 Drop&Pad 训推不一致问题，并且提升训练的数据效率。
RL 训练：采用迭代难例挖掘与多能力项均衡的奖励函数，并参考 GRPO 算法，提升了模型的训练效率与最终推理性能。

华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上，华为首次披露在昇腾CloudMatrix 384超节点上，打通大稀疏比MoE强化学习（RL）后训练框架的关键技术，使RL后训练进入超节点集群时代。

此外，近期发布的盘古Pro MoE大模型，在参数量为720亿，激活160亿参数量的情况下，在大模型榜单SuperCLUE的2025年5月排行榜上，位居千亿参数量以内大模型排行并列国内第一。

微信关注我们

原文链接：https://www.oschina.net/news/352810

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

RWKV 社区五月动态：多篇高质量论文、RWKV-8 第一个新特性公布！

欢迎大家收看《RWKV 社区最新动态》，本期内容收录了 RWKV 社区 2025 年 5 月的最新动态。只需 3 分钟，快速了解 RWKV 社区 5 月都有哪些新鲜事！ 5 月动态省流版（TL;DR） RWKV 学术研究动态新论文：Multi-View Learning with Context-Guided Receptance for Image Denoising（RWKV 图像去噪，已被 IJCAI 主会接收）新论文：RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization（RWKV 模型量化，已入选 ICML2025）新论文：QuantumRWKV：Quantum-Enhanced Channel Mixing in RWKV Models for Time Series Forecasting（RWKV 量子增强时序预测）新论文：DualComp: End-to-End Learning of a Unified Dual-Mod...

2025-05-30

226

我们怀揣梦想、坚持不懈在做一件很多人认为是很“傻”的事情，之间也走过不少的弯路，但最终还是回到“傻”的路上。哪位牛人说过，傻的事情坚持做到极致，就会很牛。而我们离牛还有十万八千里，没有筋斗云，但不缺意志和情怀，再加上有你的支持，梦想终将实现。 —— 开源中国创始人红薯，2013.08.31 中国开源，从使用者到扛把子 2025 年春节，来自中国的开源大模型 DeepSeek-R1 引爆全球，这一模型在数学、推理等多项基准测试中已追平甚至超越国际一线闭源模型，迅速占领了全球技术头条。这一“DeepSeek 时刻”不仅打破了美国对 AI 技术话语权的垄断，也为全球 AI 生态注入了开放、多元的新动能；它也标志着中国开源生态在底层模型研发和开放协作方面已具备世界级竞争力。而这背后，是又一次深刻有力的印证：在全球开源格局中，中国正以前所未有的速度完成从“大量使用”到“深度共建”、从“跟随者”到“领跑者”的华丽转身。在全球开源舞台上，中国开发者与社区正从“采纳者”向“主导者”转变，报告显示，自 2013 年以来，中国贡献持续位列全球前五且增速领先，贡献了大量仓库、PR 和 Issue。...

2025-05-30

214

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。