蚂蚁百灵团队开源高效推理模型 Ring-mini-sparse-2.0-exp
蚂蚁百灵大模型团队正式开源高效推理模型Ring-mini-sparse-2.0-exp,该模型采用的 Ling 2.0 架构是专为长序列解码优化的稀疏注意力架构,创新性地融合了高稀疏比 Mixture of Expert(MoE)结构与稀疏注意力机制。 团队表示,得益于架构与推理框架的深度协同优化,该模型在复杂长序列推理场景下的吞吐量较原版 Ring-mini-2.0 实现近 3 倍提升,同时在多项高难度推理基准测试中持续保持 SOTA 性能。这一成果为开源社区提供了兼具高效推理与强上下文处理能力的轻量化解决方案。 Ling 2.0 Sparse 是专为应对大语言模型未来两大核心趋势 —— 上下文长度扩展(Context Length Scaling) 与测试时扩展(Test Time Scaling)而设计的高效稀疏注意力机制。 团队借鉴了 Mixture of Block Attention (MoBA),采用块级稀疏注意力(block-wise sparse attention),将输入的 Key 和 Value 按块(block)划分,每个 query 在 head 维度上进行...
