蚂蚁百灵大模型团队开源 Ring-flash-linear-2.0-128K,适用于超长文本的的代码编程
蚂蚁百灵大模型团队正式开源 Ring-flash-linear-2.0-128K,该模型适合在超长文本的的代码编程以及 agent 等场景进行使用。
据介绍,该模型利用线性和标准注意力的强大混合架构,完美平衡了高性能和高效率。通过将经过验证的 MoE 设计与优化(如 1/32 专家激活比率和 MTP 层)相结合,Ring-flash-linear 在仅激活 6.1B 参数的情况下达到了 40B 密集模型的性能。
该模型从 Ling-flash-base-2.0 转换而来,并在额外的 1T 令牌上进行了进一步训练。通过 SFT 与强化学习的稳定训练,使得模型在各项高难度复杂推理任务上均达到 SOTA 表现。
在基准测试方面,Ring-flash-linear-2.0-128k 不仅可以与标准注意力模型(如 Ring-flash-2.0)相媲美,而且在多个要求苛刻的任务中超越了其他开源 MoE 和 Dense 模型。此外还原生支持 128K 上下文窗口,并可以通过 YaRN 扩展到 512K。它比以往任何时候都更快、更精确,特别是在处理长输入和输出时。
Huggingface: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k
Modelscope: https://modelscope.cn/models/inclusionAI/Ring-flash-linear-2.0-128k
GitHub linghe 算子库: https://github.com/inclusionAI/linghe


