可验证过程奖励在提升大模型推理效率中的探索与实践
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。 1 背景 以 DeepSeek-R1 为代表的大规模推理模型,通过简单有效的强化学习后训练方法,培养了强大的推理能力,但却导致模型倾向于生成冗余的回复。这使得模型在为每个输入请求生成响应时,需要花费更多的时间以及计算资源,最终消磨用户的耐心。 针对这一缺陷,来自业务研发搜推平台部的算法团队提出可验证的过程奖励机制(VSRM),鼓励 CoT 中的"有效步骤",惩戒"无效步骤",最大限度保持性能的同时,实现高效推理。 论文下载地址 :PDF 通过在数学任务上的实验显示,在多个常用 Benchmark 上,VSRM 加持的后训练使得不同尺度的模型实现了输出长度的大幅缩减,甚至在部分情况下提升了模型表现。 2 过度思考问题的本质 此前的工作将过度思考问题的现象总结为:对于一个问题,模型倾向于给出多种不同的解答,特别简单的问题。...
