蚂蚁百灵大模型团队开源高性能思考模型 Ring-flash-2.0
蚂蚁百灵大模型团队宣布正式开源 Ring-flash-2.0。这是一款在 Ling-flash-2.0-base 上深度优化的高性能思考模型。与 Ling-flash-2.0 相同,Ring-flash-2.0 总参数 100B,每次推理仅激活其中 6.1B。
Ring-flash-2.0 架构图如下:
团队介绍称,Ring-flash-2.0 在数学竞赛、代码生成、逻辑推理等多项高难度基准测试中取得了显著突破,其性能不仅超越了 40B 以内的 SOTA dense 模型,还可与更大规模的开源 MoE 模型以及闭源高性能思考模型 API 相媲美。
此外,为全面提升 Ring-flash-2.0 的模型能力,蚂蚁百灵大模型团队设计了 Two-staged RL pipeline。
- 首先是轻量的 Long-CoT SFT 让 Ling-flash-2.0-base 模型掌握丰富的思考方式
- 然后通过可验证奖励的 RLVR 训练来持续激发模型的推理潜力
- 最后加入 RLHF 阶段来提升模型的通用能力。
Ring-flash-2.0 的模型权重和 RL 训练方案,以及数据配方将完整开源开放:
https://huggingface.co/inclusionAI/Ring-flash-2.0
https://modelscope.cn/models/inclusionAI/Ring-flash-2.0



