蚂蚁与中国人民大学发布首个原生 MoE 扩散语言模型
蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。
该模型通过非自回归的掩码扩散机制,在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。
实验数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激活1.4B参数即可实现等效3B稠密模型的性能。
“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。
中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”
面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有dLLM均基于稠密架构,难以复刻ARM中MoE的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。
蓝振忠还透露,将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动AGI新一轮突破。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里巴巴、百度开始采用自研芯片训练 AI 模型
《The Information》援引直接知情人士的消息报道,阿里巴巴和百度已开始使用自主设计的芯片训练其 AI 模型,部分替代了英伟达生产的芯片。 报道称,自今年初以来,阿里巴巴针对轻量级 AI 模型使用自研芯片;而百度则在尝试用其昆仑 P800 芯片训练新版文心一言(Ernie)AI 模型。 不过,阿里和百度都并未完全放弃英伟达,两家公司仍在使用英伟达的芯片来开发其最尖端模型。 英伟达发言人对此表示:“竞争无疑已经到来…… 我们将继续努力,赢得全球各地主流开发者的信任与支持。” 上月,英伟达 CEO 黄仁勋 (Jensen Huang) 表示,正在与白宫讨论在华销售下一代 AI 芯片,但需要时间。
-
下一篇
Apache 软件基金会启用新 Logo
Apache 软件基金会(ASF)官宣启用新的 Logo 与品牌系统,旨在更好地反映其“社区重于代码”(community over code)的核心理念。 ASF 的新 Logo 用一片橡树叶(oak leaf)取代了沿用多年的羽毛图案,象征持久、稳健与社区成长:橡树叶代表 ASF 对开源项目的长期承诺,叶脉寓意分布式协作和开放治理,小橡子长成大树的意象则呼应 “社区重于代码” 的理念。 橡树叶象征持久、稳健与耐力,橡树生长缓慢但可持续数百年,代表 ASF 对软件项目长期稳定与可持续性的承诺。 一个小小的橡子(acorn)可长成庞大且多样的森林,象征由少数人开始,发展为包容性、自我治理的社区生态系统。 橡树叶的叶脉结构也象征分布式系统、共识、开放合作等 ASF 的价值观。 ASF 表示,新设计延续原有品牌色调,但更加现代、适用于数字媒体;同时推出新的品牌指南,要求项目和相关材料逐步更新。从 2025 年 9 月 11 日起,对 ASF Logo 的公开使用都必须遵循新的品牌指南。 此外,“The ASF” 这一缩写将在品牌视觉中广泛使用,全称 “The Apache Software...
相关文章
文章评论
共有0条评论来说两句吧...