R-Zero - 实现零数据 AI 推理学习
R-Zero是一个新颖的框架,它使 LLM 能够自主提升其推理能力,而无需任何预先存在的任务或标签。它是一个真正自我进化的系统,可以从零开始学习。 R-Zero 的核心是在同一基础模型的两个实例之间建立动态共同进化循环: 挑战者:它的工作是探测求解器的弱点并产生超出其能力范围的具有挑战性的问题。 解决者:其目标是通过解决挑战者提出的越来越困难的任务来不断进步。 这个过程创建了一个完美定制、自适应的课程。挑战者学习提出更好的问题,而求解者学习找到更好的答案。整个循环是独立的,使用诸如伪标签多数投票和相对策略优化等技术来指导学习。 主要特点 完全自主:从零外部数据开始。无需预先存在的问题集或人工注释的解决方案。 共同进化循环:独特的挑战者-解决者动态创建有针对性的、适应性的课程,以实现持续改进。 经过验证的性能:在多个推理基准上显著提高性能。 强大的泛化能力:在特定领域(如数学)学习的推理技能可以成功转移到一般推理任务。 与模型无关:持续提高各种backboneLLM 的性能。
