在离开阿里近一个月后,前通义千问(Qwen)技术负责人林俊旸于社交平台发表长文指出,第一波以 OpenAI o1 和 DeepSeek-R1 为代表的推理模型验证了强化学习在后训练阶段的价值,但行业下一阶段的核心将转向“智能体式思考”,即模型通过与真实环境交互并在行动中持续修正策略。
林俊旸复盘了 Qwen3 早期尝试融合“思考”与“指令”双模式的局限性。他坦言,由于追求高效执行的指令场景与深思熟虑的推理场景在底层数据需求上存在结构性矛盾,强行融合易导致模型表现妥协。
![]()
https://x.com/JustinLin610/status/2037116325210829168
原文翻译如下:
过去两年重塑了我们评估模型的方式以及对它们的期望。OpenAI的o1展示了"思考"可以成为一项一等能力——你可以为此进行训练并展示给用户。DeepSeek-R1证明,推理风格的后训练可以在原始实验室之外被复制和扩展。OpenAI将o1描述为一个通过强化学习训练来"在回答之前思考"的模型。DeepSeek将R1定位为一个与o1竞争的开放推理模型。
那个阶段很重要。但2025年上半年主要关注的是推理思维:如何让模型花费更多的推理时间计算,如何用更强的奖励来训练它们,如何展示或控制额外的推理努力。现在的问题是接下来会发生什么。我相信答案是智能体思维(agentic thinking):为了行动而思考,在与环境交互的同时,根据来自世界的反馈不断更新计划。
1. o1和R1的兴起真正教会了我们什么
第一波推理模型教会我们,如果我们想在语言模型中扩展强化学习,我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证领域变得至关重要,因为这些场景中的奖励比通用偏好监督强得多。它们让RL优化正确性而非合理性。
基础设施变得至关重要。一旦模型被训练成通过更长的轨迹进行推理,RL就不再是监督微调的轻量级附加组件。它变成了一个系统问题。你需要大规模的rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是基础设施的故事,也是建模的故事。OpenAI将o1描述为一条用RL训练的推理线,DeepSeek R1后来通过展示基于推理的RL需要多少专门的算法和基础设施工作来强化这一方向。
第一个重大转变:从扩展预训练到为推理扩展后训练。
2. 真正的问题从来不是"合并思考和指令"
在2025年初,我们Qwen团队中的许多人心中有一个雄心勃勃的图景。理想的系统将统一思考和指令模式。它将支持可调节的推理努力,类似于低/中/高推理设置。更好的是,它能自动从提示和上下文中推断出适当的推理量,这样模型就能决定何时立即回答,何时思考更长时间,以及何时在真正困难的问题上花费更多计算。
从概念上讲,这是正确的方向。Qwen3是最清晰的公开尝试之一。它引入了"混合思考模式",在一个系列中同时支持思考和非思考行为,强调可控的思考预算,并描述了一个明确包含"思考模式融合"的四阶段后训练流程。
但合并比描述要容易执行得多。困难的部分是数据。当人们谈论合并思考和指令时,他们通常首先考虑模型端的兼容性:一个检查点能否支持两种模式,一个聊天模板能否在它们之间切换,一个服务栈能否暴露正确的切换开关。更深层次的问题是,这两种模式的数据分布和行为目标有着本质的不同。
我们在尝试平衡模型合并与改进后训练数据的质量和多样性时,并没有把所有事情都做对。在修订过程中,我们也密切关注用户实际上是如何与思考模式和指令模式互动的。一个强大的指令模型通常因直接、简洁、格式合规、在低延迟的重复性高容量企业任务(如重写、标注、模板化支持、结构化提取和操作QA)中表现优异而获得奖励。一个强大的思考模型则因在困难问题上花费更多token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来实质性提高最终正确性而获得奖励。
这两种行为特征相互拉扯。如果合并数据没有经过精心筛选,结果通常是两个方向都平庸:"思考"行为变得嘈杂、臃肿或不够果断,而"指令"行为变得不如商业用户实际想要的那么干脆、可靠,而且更昂贵。
在实践中,分离仍然具有吸引力。在2025年后期,在Qwen3最初的混合框架之后,2507系列发布了独立的Instruct和Thinking更新,包括分开的30B和235B变体。在商业部署中,大量客户仍然想要高吞吐量、低成本、高度可控的指令行为用于批处理操作。对于这些场景,合并不一定是一个好处。分离产品线让团队能够更清晰地专注于解决每种模式的数据和训练问题。
其他实验室选择了相反的路线。Anthropic公开主张一种集成模型理念:Claude 3.7 Sonnet被引入为一种混合推理模型,用户可以选择普通回复或扩展思考,API用户可以设置思考预算。Anthropic明确表示他们认为推理应该是一种集成的能力,而不是一个单独的模型。GLM-4.5也公开将自己定位为具有思考和思考模式的混合推理模型,统一推理、编码和智能体能力;DeepSeek后来通过V3.1的"Think & Non-Think"混合推理朝着类似方向迈进。
关键问题是合并是否是有机的。如果思考和指令只是共存于一个检查点内,但仍然表现得像两个尴尬缝合的人格,产品体验仍然不自然。一个真正成功的合并需要一个平滑的推理努力频谱。模型应该能够表达多种努力水平,理想情况下在它们之间自适应选择。GPT风格的努力控制指向这一点:一个关于计算的策略,而不是一个二元开关。
3. 为什么Anthropic的方向是一个有用的纠正
Anthropic围绕Claude 3.7和Claude 4的公开框架是克制的。他们强调整合推理、用户可控的思考预算、现实世界任务、代码质量,后来还强调在扩展思考期间使用工具的能力。Claude 3.7被呈现为一种具有可控预算的混合推理模型;Claude 4通过允许推理与工具使用交错来扩展这一点,同时Anthropic同时强调编码、长时间运行任务和智能体工作流作为主要目标。
产生更长的推理痕迹并不会自动让模型更智能。在很多情况下,过度的可见推理信号表明分配较弱。如果模型试图以同样冗长的方式推理所有事情,它可能未能优先考虑、未能压缩或未能行动。Anthropic的轨迹表明了一种更有纪律的观点:思考应该由目标工作负载塑造。如果目标是编码,那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考应该在长程范围内提高执行质量,而不是产生令人印象深刻的中间散文。
这种对目标效用的强调指向了更大的东西:我们正从训练模型的时代转向训练智能体的时代。我们在Qwen3博客中明确表达了这一点,写道"我们正从专注于训练模型的时代转向以训练智能体为中心的时代",并将未来的RL进步与长程推理的环境反馈联系起来。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修订策略并持续长程的系统。它通过与世界的闭环交互来定义。
4. "智能体思维"真正意味着什么
智能体思维是一个不同的优化目标。推理思维通常通过最终答案之前的内部审议质量来判断:模型能否解决定理、写出证明、产生正确的代码或通过基准测试。智能体思维是关于模型能否在与环境交互的同时持续取得进展。
核心问题从"模型能否思考足够长的时间?"转变为"模型能否以维持有效行动的方式进行思考?"智能体思维必须处理纯推理模型大多可以避免的几件事:
-
决定何时停止思考并采取行动
-
选择调用哪个工具以及以什么顺序
-
整合来自环境的嘈杂或部分观察
-
在失败后修订计划
-
在许多轮次和许多工具调用中保持连贯性
智能体思维是一种通过行动进行推理的模型。
5. 为什么智能体RL基础设施更难
一旦目标从解决基准问题转向解决交互式任务,RL栈就会改变。用于经典推理RL的基础设施是不够的。在推理RL中,你通常可以将rollout视为相对干净的、自包含的轨迹。在智能体RL中,策略嵌入在一个更大的工具中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API层、内存系统和编排框架。环境不再是静态验证器;它是训练系统的一部分。
这创建了一个新的系统需求:训练和推理必须更干净地解耦。没有这种解耦,rollout吞吐量就会崩溃。考虑一个必须针对实时测试工具执行生成代码的编码智能体:推理端等待执行反馈而停滞,训练端因完成的轨迹而挨饿,整个管道在远低于你从经典推理RL预期的GPU利用率下运行。添加工具延迟、部分可观察性和有状态环境会放大这些低效。结果是,在你达到目标能力水平之前,实验就会变慢并变得痛苦。
环境本身也成为一流的研究产物。在SFT时代,我们痴迷于数据多样性。在智能体时代,我们应该痴迷于环境质量:稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富性、利用抵抗性和rollout生成的可扩展性。环境构建已经开始成为一个真正的创业类别,而不是一个副项目。如果智能体被训练用于生产级环境操作,那么环境就是核心能力栈的一部分。
6. 下一个前沿是更有用的思考
我的预期是,智能体思维将成为思考的主导形式。我认为它可能最终取代大部分旧的静态独白版本的推理思维:过度长、孤立的内部痕迹,试图通过发出越来越多的文本来补偿缺乏交互。即使在非常困难的数学或编码任务上,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健且富有成效地解决问题。
训练这种系统最困难的挑战是奖励黑客。一旦模型获得有意义的工具访问,奖励黑客就变得危险得多。一个带有搜索的模型可能会在RL期间学会直接查找答案。一个编码智能体可能会利用仓库中的未来信息、滥用日志或发现使任务无效的捷径。一个有隐藏泄漏的环境可以让策略看起来超人,同时实际上训练它作弊。这就是智能体时代比推理时代微妙得多的地方。更好的工具让模型更有用,但它们也扩大了虚假优化的攻击面。我们应该预期下一个严重的研究瓶颈将来自环境设计、评估器稳健性、反作弊协议以及策略与世界之间更有原则的接口。尽管如此,方向是明确的。工具支持的思考比孤立思考更有用,并且有更好的机会提高实际生产力。
智能体思维也将意味着工具工程。核心智能将越来越多地来自多个智能体的组织方式:一个规划和路由工作的编排器,像领域专家一样行动的专门智能体,以及执行更窄任务同时帮助控制上下文、避免污染和保持不同推理级别之间分离的子智能体。未来是从训练模型转向训练智能体,从训练智能体转向训练系统。
结论
推理浪潮的第一阶段确立了重要的东西:在语言模型之上的RL,当反馈信号可靠且基础设施能够支持它时,可以产生定性更强的认知。
更深层的转变是从推理思维到智能体思维:从思考更长时间到为了行动而思考。训练的核心对象已经转移。它是模型加环境系统,或者更具体地说,是智能体及其周围的工具。这改变了什么研究产物最重要:模型架构和训练数据,是的,还有环境设计、rollout基础设施、评估器稳健性以及多个智能体协调的接口。它改变了"良好思考"的含义:最有用的痕迹是在现实世界约束下维持行动,而不是最长或最可见的痕迹。
它也改变了竞争优势将来自哪里。在推理时代,优势来自更好的RL算法、更强的反馈信号和更可扩展的训练管道。在智能体时代,优势将来自更好的环境、更紧密的训练-服务集成、更强的工具工程,以及关闭模型决策与这些决策产生的后果之间循环的能力。
译文转自:https://mp.weixin.qq.com/s/P0Hs0yjoTgFey5B3xRuISA