蚂蚁开源业内首个高性能扩散语言模型推理框架 dInfer
蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer。
在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍;在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011Tokens/秒的速度,首次在开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer的工作表明,扩散语言模型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往AGI的架构路径提供极具竞争力的选项。
扩散语言模型,作为一种全新的范式将文本生成视为一个“从随机噪声中逐步恢复完整序列”的去噪过程,具有高度并行、全局视野、结构灵活三大优势。凭借这些优势,以蚂蚁集团和人大发布的LLaDA-MoE为代表的模型已在多个基准测试中,展现出与顶尖AR模型相媲美的准确性。然而在推理效率方面,dLLM理论上的强大潜能,却长期被残酷的现实“枷锁”所束缚。
dLLM的高效推理面临计算成本高、KV缓存失效、并行解码三大挑战。这些瓶颈使得扩散语言模型的推理速度一直不尽人意,如何打破枷锁释放扩散语言模型在推理效率上的潜能,成为整个领域亟待解决的难题。
dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。
dInfer包含四大核心模块:模型接入(Model)、KV缓存管理器(KV-Cache Manager),扩散迭代管理器(Iteration Manager),和解码策略(Decoder)。这种可插拔的架构,允许开发者像搭乐高一样,进一步组合和探索不同模块的优化策略,并在统一的平台上进行标准化评测 。更重要的是,dInfer针对上述三大挑战,在每个模块中都集成了针对性的解决方案。
在配备8块NVIDIA H800GPU的节点上,dInfer的性能表现令人瞩目:
在与先前的dLLM推理方案Fast-dLLM的对比中,dInfer在模型效果持平的情况下,平均推理速度(avg TPS)实现了10.7倍的巨大提升(681vs63.6);在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011tokens/秒的速度;与在业界顶尖的推理服务框架vLLM上运行的、参数量和性能相当的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681vs277) 。
蚂蚁集团介绍,dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。此次开预案,也是诚邀全球的开发者与研究者共同探索扩散语言模型的巨大潜能,构建更加高效、开放的AI新生态。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Reflection AI 完成 20 亿美元融资,打造“开放智能”
美国 AI 初创公司 Reflection AI宣布完成 20 亿美元融资,英伟达领投 8 亿美元,公司估值达到 80 亿美元。这家成立仅一年的公司目标是构建 “全民可访问的前沿开放智能(Open Intelligence)”。 Reflection AI 称已组建顶尖 AI 团队、打造了前沿级大模型训练平台,并筹集 20 亿美元资金用于推进开放 AI 基础设施的建设。 Reflection 认为,科技和科学的进步源于开放与协作。互联网、Linux 以及现代计算的底层协议皆是开放的产物。AI 的突破(如自注意力机制、下一词预测、强化学习)也得益于公开的研究分享。 然而,如今的 AI 前沿能力高度集中在少数封闭实验室中。如果这种趋势持续,AI 的资本、算力和人才将被垄断,形成 “封闭循环”。Reflection 希望通过开源、开放的高能力模型打破这一格局,让 AI 的基础层保持开放与可访问。 过去一年中,Reflection 聚集了曾参与 PaLM、Gemini、AlphaGo、AlphaCode、ChatGPT、Character AI 等项目的顶级人才。 他们构建了一个可训练大规模专...
-
下一篇
Ubuntu 26.04 LTS 代号公布:Resolute Raccoon
Ubuntu 公布了下一代长期支持版本(LTS)的代号 ——Resolute Raccoon,预计将在 2026 年 4 月发布。 这个名称延续了 Ubuntu 的传统双词命名方式,其中 “Resolute” 代表坚定可靠,寓意此次 LTS 版本将成为稳定、安全的系统基石;“Raccoon(浣熊)” 则象征灵巧与适应力,呼应 Ubuntu 在多平台环境下的灵活性与坚韧性。 作为 LTS 版本,Ubuntu 26.04 将提供 5 年桌面支持 与 3 年硬件更新,并通过 Ubuntu Pro 获得额外安全维护。预计系统将搭载 GNOME 50 桌面环境,强化 TPM 绑定加密 安全特性,并可能更换默认媒体播放器为 ShowTime。 值得一提的是,“Resolute Raccoon”的代号由已故的 Debian 与 Ubuntu 资深工程师 Steve Langasek 提名,成为对这位长期贡献者的纪念。 Ubuntu 核心贡献者 Steve Langasek 去世
相关文章
文章评论
共有0条评论来说两句吧...