您现在的位置是：首页 > 文章详情

蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型

日期：2025-09-12点击：43收藏

蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。

该模型通过非自回归的掩码扩散机制，在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等)，挑战了“语言模型必须自回归”的主流认知。

实验数据显示，LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型，接近或超越了自回归模型Qwen2.5-3B-Instruct，仅激活1.4B参数即可实现等效3B稠密模型的性能。

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性，意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍，“两年过去，AI大模型能力突飞猛进，但存在一些问题始终没有得到本质上的解决。究其原因，这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的，从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题，一些研究者选择另辟蹊径，将目光投向并行解码的扩散语言模型。然而，现有dLLM均基于稠密架构，难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的行业背景下，蚂蚁和人大联合研究团队，首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还透露，将于近期向全球完全开源模型权重和自研推理框架，与社区共同推动AGI新一轮突破。

原文链接：https://www.oschina.net/news/371738

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享