您现在的位置是:首页 > 文章详情

蚂蚁百灵大模型团队开源 Ring-flash-linear-2.0-128K,适用于超长文本的的代码编程

日期:2025-10-28点击:26

蚂蚁百灵大模型团队正式开源 Ring-flash-linear-2.0-128K,该模型适合在超长文本的的代码编程以及 agent 等场景进行使用

据介绍,该模型利用线性和标准注意力的强大混合架构,完美平衡了高性能和高效率。通过将经过验证的 MoE 设计与优化(如 1/32 专家激活比率和 MTP 层)相结合,Ring-flash-linear 在仅激活 6.1B 参数的情况下达到了 40B 密集模型的性能。

该模型从 Ling-flash-base-2.0 转换而来,并在额外的 1T 令牌上进行了进一步训练。通过 SFT 与强化学习的稳定训练,使得模型在各项高难度复杂推理任务上均达到 SOTA 表现。

在基准测试方面,Ring-flash-linear-2.0-128k 不仅可以与标准注意力模型(如 Ring-flash-2.0)相媲美,而且在多个要求苛刻的任务中超越了其他开源 MoE 和 Dense 模型。此外还原生支持 128K 上下文窗口,并可以通过 YaRN 扩展到 512K。它比以往任何时候都更快、更精确,特别是在处理长输入和输出时。

Huggingface: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k

Modelscope: https://modelscope.cn/models/inclusionAI/Ring-flash-linear-2.0-128k

GitHub linghe 算子库: https://github.com/inclusionAI/linghe

原文链接:https://www.oschina.net/news/379966
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章