复旦大学与美团联合发布 R-HORIZON,长链推理评测框架
复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。
据介绍,R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
以数学任务为例,该方法包含三个步骤:
1. 信息提取:从独立问题中提取核心数值、变量等关键信息
2. 依赖构建:将前序问题的答案嵌入到后续问题的条件中
3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案
方法优势:
-
灵活扩展:可自由控制推理链长度(n=2, 4, 8...)
-
精确可控:可灵活设定问题间的依赖强度
-
高效低成本:基于现有数据集构建,无需额外人工标注
基于此方法,团队构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。
R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景
R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。
技术贡献
-
首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈
-
可扩展训练范式:提供低成本、高效率的能力提升路径
-
深度机制分析:为未来推理模型改进指明方向
论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
论文地址: https://arxiv.org/abs/2510.08189
项目主页: https://reasoning-horizon.github.io
代码地址: https://github.com/meituan-longcat/R-HORIZON
数据集:https://huggingface.co/collections/meituan-longcat/r-horizon

