复旦 NLP & 美团 LongCat 联合提出 LRMs 能力评测新框架
一、推理模型 ⾯ 临的新挑战 随着 OpenAI o1 、 DeepSeek-R1 等大型推理模型(LRMs)的问世, AI 推理能力迎来了「测试时扩展」的新阶段。这些模型通过长链思维(Long Chain-of-Thought, CoT)在数学推理、代码生成、智能体任务等领域展现出强大能力。 然而,现有评测体系存在一个关键盲区:主流基准测试(如 MATH500 、AIME)主要关注独立的单一问题,每个问题相互隔离,模型只需「---问---答」即可。 但现实应用场景往往大相径庭: 软件开发中需要连续处理多个关联代码模块 数学证明需要基于前序推导逐步构建后续结论 智能助手往往需要在多轮交互逐步完成复杂任务 这些真实场景要求模型具备跨任务的长链推理能力------不仅要解决单个子问题,更要在多个关联任务间保持推理---致性、合理分配计算资源、实现跨步骤的反思与纠错。 核心问题:当前大型推理模型的长链推理能力边界到底在哪里? 由于现有评测无法回答这---问题,传统训练数据也难以培养这种能力(如图所示,模型在长程推理场景下表现明显退化)。 复旦大学与美团 LongCat 联合推出 R-HORI...