您现在的位置是:首页 > 文章详情

蚂蚁百灵团队开源高效推理模型 Ring-mini-sparse-2.0-exp

日期:2025-10-27点击:14

蚂蚁百灵大模型团队正式开源高效推理模型 Ring-mini-sparse-2.0-exp,该模型采用的 Ling 2.0 架构是专为长序列解码优化的稀疏注意力架构,创新性地融合了高稀疏比 Mixture of Expert(MoE)结构与稀疏注意力机制

团队表示,得益于架构与推理框架的深度协同优化,该模型在复杂长序列推理场景下的吞吐量较原版 Ring-mini-2.0 实现 近 3 倍提升,同时在多项高难度推理基准测试中持续保持 SOTA 性能。这一成果为开源社区提供了兼具高效推理与强上下文处理能力的轻量化解决方案。

Ling 2.0 Sparse 是专为应对大语言模型未来两大核心趋势 —— 上下文长度扩展(Context Length Scaling) 与测试时扩展(Test Time Scaling)而设计的高效稀疏注意力机制。

团队借鉴了 Mixture of Block Attention (MoBA),采用块级稀疏注意力(block-wise sparse attention),将输入的 Key 和 Value 按块(block)划分,每个 query 在 head 维度上进行 top-k 块选择,仅对选中的块执行 softmax 注意力计算,从而显著降低计算开销。同时将 MoBA 设计和 Grouped Query Attention (GQA) 结合,使同一组内的 query heads 共享 top-k 块选择结果,让一次块读取可服务于多个 query head 的注意力计算,进一步减少 I/O 开销。

Ring-mini-sparse-2.0-exp开源地址
Hugging Face:https://huggingface.co/inclusionAI/Ring-mini-sparse-2.0-exp
ModelScope:https://modelscope.cn/models/inclusionAI/Ring-mini-sparse-2.0-exp
GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba

原文链接:https://www.oschina.net/news/379734
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章