您现在的位置是:首页 > 文章详情

微软发布开源数学推理模型 rStar2-Agent

日期:2025-09-01点击:23

微软近日发布了名为“rStar2-Agent”的开源模型,这是一个14B参数的数学推理模型,通过智能而非冗长的思考,实现了与671B DeepSeek-R1相当的性能

该模型通过自主规划、推理和使用代码工具来高效地探索、验证和反思复杂问题的解决方案。其能力依赖于三大创新:GRPO-RoC算法、可扩展的高效RL基础设施,以及从非推理SFT开始的Agent训练方案。

rStar2-Agent的核心在于实现更智能的思考而非单纯延长推理时间,通过纯粹的智能体强化学习,其性能可媲美6710亿参数的DeepSeek-R1模型。

该模型能自主规划、推理并运用编码工具,高效完成探索、验证与反思以解决更复杂问题。

  • GRPO-RoC算法——采用创新的“正确时重采样”推演策略,优化编码工具使用,通过选择性保留高质量成功轨迹(同时完整保存失败案例)实现更短更智能的推理;
  • 可扩展高效的RL基础设施,支持高吞吐量工具调用执行,同时降低智能体RL推演的高成本,使有限GPU资源(64块MI300X GPU)也能实现高效训练;
  • Agent训练方案:从非推理式SFT起步,通过多阶段RL逐步推进,各阶段采用精简的最大响应长度并逐步提升数据集难度。

为此,rStar2-Agent仅用一周时间通过510步RL训练,将预训练的140亿参数模型提升至顶尖水平,在AIME24和AIME25数据集上分别实现80.6%和69.8%的平均通过率,以更短响应超越DeepSeek-R1(6710亿参数)。除数学领域外,rStar2-Agent-14B在对齐、科学推理及智能体工具使用任务中也展现出强大的泛化能力。

开源地址:https://github.com/microsoft/rStar

原文链接:https://www.oschina.net/news/369674
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章