复旦大学与美团联合发布 R-HORIZON，长链推理评测框架-低调大师

复旦大学与美团联合发布 R-HORIZON，长链推理评测框架

2025-10-29 75

复旦大学与美团LongCat联合推出 R-HORIZON——首个系统性评估与增强 LRMs 长链推理能力的评测框架与训练方法。

据介绍，R-HORIZON 提出了问题组合（Query Composition）方法，通过构建问题间的依赖关系，将孤立任务转化为复杂的多步骤推理链。

以数学任务为例，该方法包含三个步骤：

1. 信息提取：从独立问题中提取核心数值、变量等关键信息
2. 依赖构建：将前序问题的答案嵌入到后续问题的条件中
3. 链式推理：模型必须顺序解决所有子问题才能获得最终答案

方法优势：

灵活扩展：可自由控制推理链长度（n=2, 4, 8...）
精确可控：可灵活设定问题间的依赖强度
高效低成本：基于现有数据集构建，无需额外人工标注

基于此方法，团队构建了R-HORIZON Benchmark用于系统性评估 LRMs 的多步推理能力，同时生成了长链推理训练数据，通过强化学习（RLVR）提升模型性能。

R-HORIZON 方法流程——从单 — 问题到复杂推理链的转化及应用场景

R-HORIZON 标志着大型推理模型研究的范式转变——从「能解决什么问题」到「能走多远」。

技术贡献

首个长链推理评测基准：系统性揭示 LRMs 的能力边界及三大瓶颈
可扩展训练范式：提供低成本、高效率的能力提升路径
深度机制分析：为未来推理模型改进指明方向

论文标题： R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

论文地址： https://arxiv.org/abs/2510.08189
项目主页： https://reasoning-horizon.github.io
代码地址： https://github.com/meituan-longcat/R-HORIZON
数据集：https://huggingface.co/collections/meituan-longcat/r-horizon

微信关注我们

原文链接：https://www.oschina.net/news/380150

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Solon （可替换 SpringBoot）集成 Docker 实战：30分钟搞定容器化部署

作为 Java 开发者，你是否已经厌倦了 Spring Boot 容器化过程中的各种复杂配置和坑点？想要尝试更轻量、更高效的框架？那么 Solon 绝对值得你关注。今天我就带你实战 Solon 框架与 Docker 的集成，从环境准备到最终部署，全程避坑指南，让你 30 分钟内轻松搞定！为什么选择 Solon + Docker？在微服务架构盛行之下，应用容器化已成为标配。但传统的 Spring Boot 虽然功能强大，但在启动速度、内存占用和容器化体验上仍有优化空间。听一个老同事说，他们公司经常有1GB大小的 Spring Boot Jar 包。 Solon 的优势：启动速度极快：Solon 应用的启动时间通常是 Spring Boot 的1/10到1/5 内存占用更小：基础镜像体积更小，运行时内存消耗更低。通常只有 Spring Boot 的1/10到1/2 配置更简洁：Docker 集成配置简单明了，减少踩坑概率原生支持容器化：从设计之初就考虑了云原生场景环境准备：三步搞定基础配置在开始之前，确保你的本地环境满足以下要求： 1. 确认环境版本 JDK 版本：Solon ...

2025-10-29

91

ApacheFlink社区很高兴地宣布发布ApacheFlinkAgents的首个预览版本（0.1.0）。什么是ApacheFlinkAgents ApacheFlinkAgents是ApacheFlink的全新子项目，用于在Flink的流处理运行时之上直接构建事件驱动的AI智能体。它在同一框架内统一了流处理与自主智能体能力，将Flink在规模、低时延、容错能力和状态管理方面的成熟优势，与构建智能体所需的能力（大型语言模型、工具、记忆与动态编排）相结合。为什么需要ApacheFlinkAgents 尽管AI智能体在聊天机器人和智能编程等交互式应用中发展迅速，但这类系统通常以同步、一次性的交互为主。许多企业场景无法等待用户触发后再启动。例如，在电商、金融、物联网和物流等工业化场景中，系统必须对支付失败、传感器异常或用户点击等实时事件立即作出关键决策。要在生产环境中取得成功，企业级智能体必须具备以下能力：处理实时且高吞吐的事件流，例如交易、传感器异常或用户点击。持续且自主运行，而不仅在收到指令时才工作。在出现问题时，确保安全性、可审计性以及故障恢复能力。这类工作不仅需要“智能...

2025-10-29

59

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。