微软发布开源数学推理模型 rStar2-Agent
微软近日发布了名为“rStar2-Agent”的开源模型,这是一个14B参数的数学推理模型,通过智能而非冗长的思考,实现了与671B DeepSeek-R1相当的性能。 该模型通过自主规划、推理和使用代码工具来高效地探索、验证和反思复杂问题的解决方案。其能力依赖于三大创新:GRPO-RoC算法、可扩展的高效RL基础设施,以及从非推理SFT开始的Agent训练方案。 rStar2-Agent的核心在于实现更智能的思考而非单纯延长推理时间,通过纯粹的智能体强化学习,其性能可媲美6710亿参数的DeepSeek-R1模型。 该模型能自主规划、推理并运用编码工具,高效完成探索、验证与反思以解决更复杂问题。 GRPO-RoC算法——采用创新的“正确时重采样”推演策略,优化编码工具使用,通过选择性保留高质量成功轨迹(同时完整保存失败案例)实现更短更智能的推理; 可扩展高效的RL基础设施,支持高吞吐量工具调用执行,同时降低智能体RL推演的高成本,使有限GPU资源(64块MI300X GPU)也能实现高效训练; Agent训练方案:从非推理式SFT起步,通过多阶段RL逐步推进,各阶段采用精简的最大响应...
