微软发布开源数学推理模型 rStar2-Agent
微软近日发布了名为“rStar2-Agent”的开源模型,这是一个14B参数的数学推理模型,通过智能而非冗长的思考,实现了与671B DeepSeek-R1相当的性能。
该模型通过自主规划、推理和使用代码工具来高效地探索、验证和反思复杂问题的解决方案。其能力依赖于三大创新:GRPO-RoC算法、可扩展的高效RL基础设施,以及从非推理SFT开始的Agent训练方案。
rStar2-Agent的核心在于实现更智能的思考而非单纯延长推理时间,通过纯粹的智能体强化学习,其性能可媲美6710亿参数的DeepSeek-R1模型。
该模型能自主规划、推理并运用编码工具,高效完成探索、验证与反思以解决更复杂问题。
- GRPO-RoC算法——采用创新的“正确时重采样”推演策略,优化编码工具使用,通过选择性保留高质量成功轨迹(同时完整保存失败案例)实现更短更智能的推理;
- 可扩展高效的RL基础设施,支持高吞吐量工具调用执行,同时降低智能体RL推演的高成本,使有限GPU资源(64块MI300X GPU)也能实现高效训练;
- Agent训练方案:从非推理式SFT起步,通过多阶段RL逐步推进,各阶段采用精简的最大响应长度并逐步提升数据集难度。
为此,rStar2-Agent仅用一周时间通过510步RL训练,将预训练的140亿参数模型提升至顶尖水平,在AIME24和AIME25数据集上分别实现80.6%和69.8%的平均通过率,以更短响应超越DeepSeek-R1(6710亿参数)。除数学领域外,rStar2-Agent-14B在对齐、科学推理及智能体工具使用任务中也展现出强大的泛化能力。
开源地址:https://github.com/microsoft/rStar

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
腾讯开源混元翻译模型 Hunyuan-MT
腾讯混元团队正式开源了面向翻译场景的 Hunyuan-MT 系列模型。该系列目前包含两个版本: Hunyuan-MT-7B:单模型版本,支持 33 种语言之间的双向翻译,覆盖中、英、日、法等主流语种以及藏、维、蒙、哈、朝 5 种中国少数民族语言;在 WMT25 竞赛的 31 个语言方向上取得领先成绩 。 Hunyuan-MT-Chimera-7B:集成模型,通过融合多路翻译结果进一步提升译文质量 。 Hunyuan-MT-7B 在同等规模下达到了业界领先的翻译性能,而 Hunyuan-MT-Chimera-7B 通过集成多路翻译输出进一步提升了质量。 核心特性与优势 WMT25 参赛 31 语种之中 30 语种获得第一名的成绩。 Hunyuan-MT-7B 同尺寸业界效果最优 Hunyuan-MT-Chimera-7B 是业界首个开源翻译集成模型,可以将翻译效果再拉高一个档次 提出了一个完整的翻译模型训练范式,从 Pretrain->CPT->SFT-> 翻译强化 -> 集成强化,翻译效果达到同尺寸 SOTA。 效果 开源地址:https://github.co...
-
下一篇
具身智能高质量合成数据集开源发布
国家数据局发文宣布,具身智能灵巧手多样抓取仿真数据集(DexonomySim)已开源发布。 具身智能灵巧手多样抓取仿真数据集(DexonomySim)是在国家数据局数字科技和基础设施建设司指导下,由银河通用介绍发布。DexonomySim专为具身智能机器人灵巧抓取任务设计,包含超过950万条高质量抓取姿态,覆盖超1万个物体与31种常用抓握类型,涵盖人类抓握分类法中约94%的类型,是当前具身智能领域开源的最大规模灵巧手操作高质量合成数据集。 该数据集适用于多指灵巧手在高自由度操作场景下的模型训练与算法验证,其生成方式基于高效优化的物理仿真,具有数据格式规范统一、真实可溯、内容优质、模型适配性高等优势,且多样性与规模均远超已有数据集,有效满足模型泛化需求,助力人形机器人实现对外形不规则或需精细操作物体的稳定、多样化抓取,提升复杂环境下的操作适应性与任务成功率。 具身智能高质量合成数据集的开源,将为全球研究者和产业开发者提供关键的基础设施和生产要素支撑,加速推动人形机器人在商超零售、工业分拣、家庭服务、医疗康养等多元场景落地应用。 此次成果的开源,体现出行业企业在高质量数据集建设上的积极探索...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8编译安装MySQL8.0.19
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- MySQL数据库在高并发下的优化方案