可验证过程奖励在提升大模型推理效率中的探索与实践
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。
1 背景
以 DeepSeek-R1 为代表的大规模推理模型,通过简单有效的强化学习后训练方法,培养了强大的推理能力,但却导致模型倾向于生成冗余的回复。这使得模型在为每个输入请求生成响应时,需要花费更多的时间以及计算资源,最终消磨用户的耐心。
针对这一缺陷,来自业务研发搜推平台部的算法团队提出可验证的过程奖励机制(VSRM),鼓励 CoT 中的"有效步骤",惩戒"无效步骤",最大限度保持性能的同时,实现高效推理。
论文下载地址 :PDF
通过在数学任务上的实验显示,在多个常用 Benchmark 上,VSRM 加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。
2 过度思考问题的本质
此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。在这一认识的基础上,团队更进一步,对现有 LRM 在 MATH-500 上做出的回复进行了深入的 Case Study。
如图所示,在这个例子中,模型为解决一个非常简单的子问题([-500,0] 中有多少个小于 0 的整数)进行了反复的思考,在正确和错误之间反复横跳,最终得出了一个不正确的中间结论,进而导致了最终结论的错误。这些无效步骤不但不能指引推理路径的发展,反而会导致中间过程出错。
这样的案例并不孤立,甚至频繁出现。基于上述观察,我们团队提出:大量无效的中间步骤是导致模型过度思考的根本原因。因此,抑制这些无效步骤,鼓励有效步骤,是后训练的核心优化目标。
3 设计可验证的逐步骤奖励
现有 RLVR 的机制,通过奖励函数以可验证的二元结果奖励促进模型探索能够获得正确答案的解法。但是 结果奖励无法精确地奖惩不同的步骤,也因此无法达到所期望的目标。
过程奖励机制虽然能满足这一要求,但 过程奖励模型(PRM)往往难以训练且预测结果的可靠性有限 ,针对数学问题/代码编程等推理任务更是 严重欠缺可解释性。
搜推技术团队将可验证奖励与步骤级奖励结合在一起,创造性地提出 VSRM,为推理过程中的每个中间步骤分配奖励信号,从而实现对不同步骤的鼓励和抑制,天然地契合推理任务分步作答的特点。
3.1 步骤划分
引入步骤级奖励的第一步是定位所有的步骤。
在 CoT 中,一些特殊的 Token,比如"However"、"Therefore"、"So"、"But"、"Wait"等往往表示模型已经完成了一个推理步骤,即将进行下一步推理(递进或是转折)。这些特殊 token 的存在将整个轨迹划分成了多个中间步骤。
为了保证划分后内容的可读性,我们额外设计了三条规则:1. 跳过最初的若干 token,这部分内容往往是对问题进行重述。2. 相邻划分点之间必须至少间隔一定距离,避免过度分割。3. 若特殊 token 位于句子内部,将划分点放在该句句首。
3.2 奖励分配
为了评估中间步骤有效与否,最直接的方式就是评估该步骤完成前后带来的正确率增益。而正确率是完全可以通过可验证的方式得到的。
只需要在每个划分点的位置前,加上一个 </think> token,这样,从 query 开始,到该处的 </think>,就构成了一条子轨迹。
以每个子轨迹为 prompt,模型能够产生多个候选答案,平均正确率体现了当前步骤得到正确答案的概率。
相邻子轨迹的正确率差值,即为完成当前步骤后获得的正确率增益。
直接将增益作为步骤级奖励就能够指导模型区分有效与无效步骤。但考虑到,往往若干个步骤才能够导致解题过程的实质性推进,因此,多个连续步骤的平均正确率很可能保持不变,进而导致稀疏的奖励信号,不利于优化。
为了避免这种情况,引入前瞻窗口机制,将未来的正确率变化通过折扣因子传播给当前步,从而确保奖励信号尽量密集。
通过这种机制,VSRM 机制实现了为每个步骤分配可验证的,步骤级奖励信号,从而鼓励模型减少无效步骤的输出。
与直接施加长度惩罚不同,VSRM 直接从源头上给予模型最清晰明了的奖励信号,引导模型更多选择对提升最终正确率有帮助的步骤,在缓解过度思考问题的同时,最大限度地保留模型性能。
VSRM 机制本身与 强化学习算法解耦,能够天然地适配支持过程奖励的方法,只需将逐步奖励添加到最终的 Reward Tensor 即可,搭配常用的结果二元结果奖励和格式奖励,即可无缝实现高效推理。
4 实验
在数学问题最常用的 Benchmark 上,使用三个不同 Base Model,两种 RL 算法,将 VSRM 与多种最新的相关工作进行对比,实验结果展现出 VSRM 在降低输出长度的同时,能够最大限度地保持性能,取得很好的均衡。
消融实验的结果显示了 VSRM 中,前瞻窗口机制的有效性,以及,额外的显式长度惩罚对于 VSRM 机制并无帮助。
在困难 Benchmark 上,随着 k 的增加,Pass@k 指标的提升趋势能够反馈模型探索更多可行解的能力。可以看到 VSRM-PPO 训练后的模型,体现了与原本模型一致的趋势,说明模型并没有因为输出长度的压缩而失去了最重要的探索能力。
5 总结
通过广泛的对比实验,我们证明了可验证的过程奖励在不同 RL 算法,不同 Base Model 的设置下,均能实现保持性能的同时,极大缓解过度思考问题。消融实验以及进一步的实证分析也展示出,可验证的过程奖励,真正起到了抑制无效步骤,鼓励有效步骤的作用,是从根本上解决过度思考问题,保持模型良好推理行为的有效途径。
| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
全球首个真实物理环境多任务基准 RoboChallenge 发布
全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试平台RoboChallenge 基准测试平台于近日正式发布。 “我们正在构建一个真实世界的机器人测试和评估平台。在这里,研究人员和开发人员可以在统一的环境中验证和比较他们的机器人策略——涵盖从基本任务到复杂的真实场景。” RoboChallenge 由 Dexmal 原力灵机联合 Hugging Face 共同发起。该测试平台的核心价值在于克服了现有机器人基准测试在真实环境下的性能验证、标准化测试条件和公开可访问测试平台等方面的挑战。 优点: 多样化任务:从物体操纵和场景交互到长期规划,涵盖机器人智能的多个维度。 多机器人:支持各种机器人形态,包括移动机器人和双手机器人。 公开公正:所有结果及排名均在平台上透明展示,确保公平可信。 该基准测试将为视觉语言动作模型(VLAs)在机器人中的实际应用提供更加可靠和可比较的评估标准,从而加速 VLA 模型从模拟环境走向实际物理世界的部署和验证进程。
-
下一篇
苹果发布 M5 芯片:CPU 提升 15%、图形性能提升 30%
苹果正式发布了其全新的M5处理器,这款芯片基于台积电的N3P制程工艺,配备了10核CPU和10核GPU。 从CPU来看,M5采用了与M4相同的10核配置,不同的是采用了6个性能核心和4个效率核心,虽然核心数量没有变化,但苹果表示M5的CPU的多线程性能相比M4提高了15%。 在GPU方面,M5配备了10核GPU,苹果宣称相比M4在图形性能上提高了30%,另外每个GPU内核当中都嵌入了一个神经加速器,协同工作下使得M5的计算能力是其前代产品的四倍。 在内存带宽方面,M5达到了153GB/s,比M4的120GB/s提高了30%,此外由于M5支持硬件加速光线追踪,苹果声称支持该功能的应用程序性能将提升高达45%。NPU方面保持了16核配置,能够在消耗最少电量的情况下提供强大的AI性能。 苹果表示,M5的NPU将与CPU和GPU中的神经加速器协同工作,使苹果芯片完全优化用于人工智能相关工作负载。例如使用Apple Vision Pro,用户可以在Photos应用中将2D照片转换为空间场景,或者生成一个Persona,这些操作将更加迅速和高效。 值得注意的是,苹果此次并未发布M5 Pro和M5 ...
相关文章
文章评论
共有0条评论来说两句吧...