复旦大学与美团联合发布 R-HORIZON,长链推理评测框架
复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。
据介绍,R-HORIZON 提出了问题组合(Query Composition)方法,通过构建问题间的依赖关系,将孤立任务转化为复杂的多步骤推理链。
以数学任务为例,该方法包含三个步骤:
1. 信息提取:从独立问题中提取核心数值、变量等关键信息
 
 2. 依赖构建:将前序问题的答案嵌入到后续问题的条件中
 
 3. 链式推理:模型必须顺序解决所有子问题才能获得最终答案
方法优势:
- 
  
灵活扩展:可自由控制推理链长度(n=2, 4, 8...)
 - 
  
精确可控:可灵活设定问题间的依赖强度
 - 
  
高效低成本:基于现有数据集构建,无需额外人工标注
 
基于此方法,团队构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力,同时生成了长链推理训练数据,通过强化学习(RLVR)提升模型性能。
R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景
R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。
技术贡献
- 
  
首个长链推理评测基准:系统性揭示 LRMs 的能力边界及三大瓶颈
 - 
  
可扩展训练范式:提供低成本、高效率的能力提升路径
 - 
  
深度机制分析:为未来推理模型改进指明方向
 
论文标题: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
论文地址: https://arxiv.org/abs/2510.08189
项目主页: https://reasoning-horizon.github.io
代码地址: https://github.com/meituan-longcat/R-HORIZON
数据集:https://huggingface.co/collections/meituan-longcat/r-horizon
关注公众号
					低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 
							
								
								    上一篇
								    
								
								Solon (可替换 SpringBoot)集成 Docker 实战:30分钟搞定容器化部署
作为 Java 开发者,你是否已经厌倦了 Spring Boot 容器化过程中的各种复杂配置和坑点?想要尝试更轻量、更高效的框架?那么 Solon 绝对值得你关注。今天我就带你实战 Solon 框架与 Docker 的集成,从环境准备到最终部署,全程避坑指南,让你 30 分钟内轻松搞定! 为什么选择 Solon + Docker? 在微服务架构盛行之下,应用容器化已成为标配。但传统的 Spring Boot 虽然功能强大,但在启动速度、内存占用和容器化体验上仍有优化空间。听一个老同事说,他们公司经常有1GB大小的 Spring Boot Jar 包。 Solon 的优势: 启动速度极快:Solon 应用的启动时间通常是 Spring Boot 的1/10到1/5 内存占用更小:基础镜像体积更小,运行时内存消耗更低。通常只有 Spring Boot 的1/10到1/2 配置更简洁:Docker 集成配置简单明了,减少踩坑概率 原生支持容器化:从设计之初就考虑了云原生场景 环境准备:三步搞定基础配置 在开始之前,确保你的本地环境满足以下要求: 1. 确认环境版本 JDK 版本:Solon ...
 - 
							
								
								    下一篇
								    
								
								Flink Agents 0.1.0 发布公告
ApacheFlink社区很高兴地宣布发布ApacheFlinkAgents的首个预览版本(0.1.0)。 什么是ApacheFlinkAgents ApacheFlinkAgents是ApacheFlink的全新子项目,用于在Flink的流处理运行时之上直接构建事件驱动的AI智能体。它在同一框架内统一了流处理与自主智能体能力,将Flink在规模、低时延、容错能力和状态管理方面的成熟优势,与构建智能体所需的能力(大型语言模型、工具、记忆与动态编排)相结合。 为什么需要ApacheFlinkAgents 尽管AI智能体在聊天机器人和智能编程等交互式应用中发展迅速,但这类系统通常以同步、一次性的交互为主。许多企业场景无法等待用户触发后再启动。例如,在电商、金融、物联网和物流等工业化场景中,系统必须对支付失败、传感器异常或用户点击等实时事件立即作出关键决策。 要在生产环境中取得成功,企业级智能体必须具备以下能力: 处理实时且高吞吐的事件流,例如交易、传感器异常或用户点击。 持续且自主运行,而不仅在收到指令时才工作。 在出现问题时,确保安全性、可审计性以及故障恢复能力。 这类工作不仅需要“智能...
 
相关文章
文章评论
共有0条评论来说两句吧...

			

				
				
				
				
				
				
				
微信收款码
支付宝收款码