蚂蚁百灵大模型团队开源 Ring-Linear-2.0 系列高效思考模型
蚂蚁百灵大模型团队宣布正式开源两款高效思考模型:Ring-flash-linear-2.0与Ring-mini-linear-2.0,并同步发布两大自研高性能融合算子:FP8融合算子和线性Attention推理融合算子,主打“大参数、低激活”的高效推理和超长上下文支持。 团队介绍称,得益于架构优化与高性能算子协同,这两款模型在深度推理场景下的推理成本仅为同尺寸 Dense 模型的1/10,相较原有Ring系列成本也降低超过50%。 得益于训推引擎算子的高度对齐,模型能够在强化学习阶段进行长周期、稳定且高效的优化,在多项高难度复杂推理榜单上持续保持 SOTA 表现。 开源地址如下: Ring-flash-linear-2.0 Hugging Face:https://huggingface.co/inclusionAI/Ring-flash-linear-2.0 ModelScope:https://modelscope.cn/models/inclusionAI/Ring-flash-linear-2.0 Ring-mini-linear-2.0 Hugging Face:https:...