您现在的位置是:首页 > 文章详情

复旦大学与美团联合发布 R-HORIZON,长链推理评测框架

日期:2025-10-29点击:16

复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

据介绍,R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。

以数学任务为例,该方法包含三个步骤:

1. 信息提取:从独立问题中提取核心数值、变量等关键信息
2. 依赖构建:将前序问题的答案嵌入到后续问题的条件中
3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案

方法优势:

  • 灵活扩展:可自由控制推理链长度(n=2, 4, 8...)

  • 精确可控:可灵活设定问题间的依赖强度

  • 高效低成本:基于现有数据集构建,无需额外人工标注

基于此方法,团队构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。

R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景

R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。

技术贡献

  • 首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈

  • 可扩展训练范式:提供低成本、高效率的能力提升路径

  • 深度机制分析:为未来推理模型改进指明方向

论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

论文地址: https://arxiv.org/abs/2510.08189
项目主页: https://reasoning-horizon.github.io
代码地址: https://github.com/meituan-longcat/R-HORIZON 
数据集:https://huggingface.co/collections/meituan-longcat/r-horizon

原文链接:https://www.oschina.net/news/380150
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章