林俊旸最新文章：从“推理式思考”到“智能体式思考”-低调大师

林俊旸最新文章：从“推理式思考”到“智能体式思考”

2026-03-27 66

在离开阿里近一个月后，前通义千问（Qwen）技术负责人林俊旸于社交平台发表长文指出，第一波以 OpenAI o1 和 DeepSeek-R1 为代表的推理模型验证了强化学习在后训练阶段的价值，但行业下一阶段的核心将转向“智能体式思考”，即模型通过与真实环境交互并在行动中持续修正策略。

林俊旸复盘了 Qwen3 早期尝试融合“思考”与“指令”双模式的局限性。他坦言，由于追求高效执行的指令场景与深思熟虑的推理场景在底层数据需求上存在结构性矛盾，强行融合易导致模型表现妥协。

https://x.com/JustinLin610/status/2037116325210829168

原文翻译如下：

过去两年重塑了我们评估模型的方式以及对它们的期望。OpenAI的o1展示了"思考"可以成为一项一等能力——你可以为此进行训练并展示给用户。DeepSeek-R1证明，推理风格的后训练可以在原始实验室之外被复制和扩展。OpenAI将o1描述为一个通过强化学习训练来"在回答之前思考"的模型。DeepSeek将R1定位为一个与o1竞争的开放推理模型。

那个阶段很重要。但2025年上半年主要关注的是推理思维：如何让模型花费更多的推理时间计算，如何用更强的奖励来训练它们，如何展示或控制额外的推理努力。现在的问题是接下来会发生什么。我相信答案是智能体思维（agentic thinking）：为了行动而思考，在与环境交互的同时，根据来自世界的反馈不断更新计划。

1. o1和R1的兴起真正教会了我们什么

第一波推理模型教会我们，如果我们想在语言模型中扩展强化学习，我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑和其他可验证领域变得至关重要，因为这些场景中的奖励比通用偏好监督强得多。它们让RL优化正确性而非合理性。

基础设施变得至关重要。一旦模型被训练成通过更长的轨迹进行推理，RL就不再是监督微调的轻量级附加组件。它变成了一个系统问题。你需要大规模的rollout、高吞吐量的验证、稳定的策略更新、高效的采样。推理模型的出现既是基础设施的故事，也是建模的故事。OpenAI将o1描述为一条用RL训练的推理线，DeepSeek R1后来通过展示基于推理的RL需要多少专门的算法和基础设施工作来强化这一方向。

第一个重大转变：从扩展预训练到为推理扩展后训练。

2. 真正的问题从来不是"合并思考和指令"

在2025年初，我们Qwen团队中的许多人心中有一个雄心勃勃的图景。理想的系统将统一思考和指令模式。它将支持可调节的推理努力，类似于低/中/高推理设置。更好的是，它能自动从提示和上下文中推断出适当的推理量，这样模型就能决定何时立即回答，何时思考更长时间，以及何时在真正困难的问题上花费更多计算。

从概念上讲，这是正确的方向。Qwen3是最清晰的公开尝试之一。它引入了"混合思考模式"，在一个系列中同时支持思考和非思考行为，强调可控的思考预算，并描述了一个明确包含"思考模式融合"的四阶段后训练流程。

但合并比描述要容易执行得多。困难的部分是数据。当人们谈论合并思考和指令时，他们通常首先考虑模型端的兼容性：一个检查点能否支持两种模式，一个聊天模板能否在它们之间切换，一个服务栈能否暴露正确的切换开关。更深层次的问题是，这两种模式的数据分布和行为目标有着本质的不同。

我们在尝试平衡模型合并与改进后训练数据的质量和多样性时，并没有把所有事情都做对。在修订过程中，我们也密切关注用户实际上是如何与思考模式和指令模式互动的。一个强大的指令模型通常因直接、简洁、格式合规、在低延迟的重复性高容量企业任务（如重写、标注、模板化支持、结构化提取和操作QA）中表现优异而获得奖励。一个强大的思考模型则因在困难问题上花费更多token、保持连贯的中间结构、探索替代路径、保留足够的内部计算来实质性提高最终正确性而获得奖励。

这两种行为特征相互拉扯。如果合并数据没有经过精心筛选，结果通常是两个方向都平庸："思考"行为变得嘈杂、臃肿或不够果断，而"指令"行为变得不如商业用户实际想要的那么干脆、可靠，而且更昂贵。

在实践中，分离仍然具有吸引力。在2025年后期，在Qwen3最初的混合框架之后，2507系列发布了独立的Instruct和Thinking更新，包括分开的30B和235B变体。在商业部署中，大量客户仍然想要高吞吐量、低成本、高度可控的指令行为用于批处理操作。对于这些场景，合并不一定是一个好处。分离产品线让团队能够更清晰地专注于解决每种模式的数据和训练问题。

其他实验室选择了相反的路线。Anthropic公开主张一种集成模型理念：Claude 3.7 Sonnet被引入为一种混合推理模型，用户可以选择普通回复或扩展思考，API用户可以设置思考预算。Anthropic明确表示他们认为推理应该是一种集成的能力，而不是一个单独的模型。GLM-4.5也公开将自己定位为具有思考和思考模式的混合推理模型，统一推理、编码和智能体能力；DeepSeek后来通过V3.1的"Think & Non-Think"混合推理朝着类似方向迈进。

关键问题是合并是否是有机的。如果思考和指令只是共存于一个检查点内，但仍然表现得像两个尴尬缝合的人格，产品体验仍然不自然。一个真正成功的合并需要一个平滑的推理努力频谱。模型应该能够表达多种努力水平，理想情况下在它们之间自适应选择。GPT风格的努力控制指向这一点：一个关于计算的策略，而不是一个二元开关。

3. 为什么Anthropic的方向是一个有用的纠正

Anthropic围绕Claude 3.7和Claude 4的公开框架是克制的。他们强调整合推理、用户可控的思考预算、现实世界任务、代码质量，后来还强调在扩展思考期间使用工具的能力。Claude 3.7被呈现为一种具有可控预算的混合推理模型；Claude 4通过允许推理与工具使用交错来扩展这一点，同时Anthropic同时强调编码、长时间运行任务和智能体工作流作为主要目标。

产生更长的推理痕迹并不会自动让模型更智能。在很多情况下，过度的可见推理信号表明分配较弱。如果模型试图以同样冗长的方式推理所有事情，它可能未能优先考虑、未能压缩或未能行动。Anthropic的轨迹表明了一种更有纪律的观点：思考应该由目标工作负载塑造。如果目标是编码，那么思考应该有助于代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流，那么思考应该在长程范围内提高执行质量，而不是产生令人印象深刻的中间散文。

这种对目标效用的强调指向了更大的东西：我们正从训练模型的时代转向训练智能体的时代。我们在Qwen3博客中明确表达了这一点，写道"我们正从专注于训练模型的时代转向以训练智能体为中心的时代"，并将未来的RL进步与长程推理的环境反馈联系起来。智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修订策略并持续长程的系统。它通过与世界的闭环交互来定义。

4. "智能体思维"真正意味着什么

智能体思维是一个不同的优化目标。推理思维通常通过最终答案之前的内部审议质量来判断：模型能否解决定理、写出证明、产生正确的代码或通过基准测试。智能体思维是关于模型能否在与环境交互的同时持续取得进展。

核心问题从"模型能否思考足够长的时间？"转变为"模型能否以维持有效行动的方式进行思考？"智能体思维必须处理纯推理模型大多可以避免的几件事：

决定何时停止思考并采取行动
选择调用哪个工具以及以什么顺序
整合来自环境的嘈杂或部分观察
在失败后修订计划
在许多轮次和许多工具调用中保持连贯性

智能体思维是一种通过行动进行推理的模型。

5. 为什么智能体RL基础设施更难

一旦目标从解决基准问题转向解决交互式任务，RL栈就会改变。用于经典推理RL的基础设施是不够的。在推理RL中，你通常可以将rollout视为相对干净的、自包含的轨迹。在智能体RL中，策略嵌入在一个更大的工具中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙盒、API层、内存系统和编排框架。环境不再是静态验证器；它是训练系统的一部分。

这创建了一个新的系统需求：训练和推理必须更干净地解耦。没有这种解耦，rollout吞吐量就会崩溃。考虑一个必须针对实时测试工具执行生成代码的编码智能体：推理端等待执行反馈而停滞，训练端因完成的轨迹而挨饿，整个管道在远低于你从经典推理RL预期的GPU利用率下运行。添加工具延迟、部分可观察性和有状态环境会放大这些低效。结果是，在你达到目标能力水平之前，实验就会变慢并变得痛苦。

环境本身也成为一流的研究产物。在SFT时代，我们痴迷于数据多样性。在智能体时代，我们应该痴迷于环境质量：稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富性、利用抵抗性和rollout生成的可扩展性。环境构建已经开始成为一个真正的创业类别，而不是一个副项目。如果智能体被训练用于生产级环境操作，那么环境就是核心能力栈的一部分。

6. 下一个前沿是更有用的思考

我的预期是，智能体思维将成为思考的主导形式。我认为它可能最终取代大部分旧的静态独白版本的推理思维：过度长、孤立的内部痕迹，试图通过发出越来越多的文本来补偿缺乏交互。即使在非常困难的数学或编码任务上，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证和修订。目标是稳健且富有成效地解决问题。

训练这种系统最困难的挑战是奖励黑客。一旦模型获得有意义的工具访问，奖励黑客就变得危险得多。一个带有搜索的模型可能会在RL期间学会直接查找答案。一个编码智能体可能会利用仓库中的未来信息、滥用日志或发现使任务无效的捷径。一个有隐藏泄漏的环境可以让策略看起来超人，同时实际上训练它作弊。这就是智能体时代比推理时代微妙得多的地方。更好的工具让模型更有用，但它们也扩大了虚假优化的攻击面。我们应该预期下一个严重的研究瓶颈将来自环境设计、评估器稳健性、反作弊协议以及策略与世界之间更有原则的接口。尽管如此，方向是明确的。工具支持的思考比孤立思考更有用，并且有更好的机会提高实际生产力。

智能体思维也将意味着工具工程。核心智能将越来越多地来自多个智能体的组织方式：一个规划和路由工作的编排器，像领域专家一样行动的专门智能体，以及执行更窄任务同时帮助控制上下文、避免污染和保持不同推理级别之间分离的子智能体。未来是从训练模型转向训练智能体，从训练智能体转向训练系统。

结论

推理浪潮的第一阶段确立了重要的东西：在语言模型之上的RL，当反馈信号可靠且基础设施能够支持它时，可以产生定性更强的认知。

更深层的转变是从推理思维到智能体思维：从思考更长时间到为了行动而思考。训练的核心对象已经转移。它是模型加环境系统，或者更具体地说，是智能体及其周围的工具。这改变了什么研究产物最重要：模型架构和训练数据，是的，还有环境设计、rollout基础设施、评估器稳健性以及多个智能体协调的接口。它改变了"良好思考"的含义：最有用的痕迹是在现实世界约束下维持行动，而不是最长或最可见的痕迹。

它也改变了竞争优势将来自哪里。在推理时代，优势来自更好的RL算法、更强的反馈信号和更可扩展的训练管道。在智能体时代，优势将来自更好的环境、更紧密的训练-服务集成、更强的工具工程，以及关闭模型决策与这些决策产生的后果之间循环的能力。

译文转自：https://mp.weixin.qq.com/s/P0Hs0yjoTgFey5B3xRuISA

微信关注我们

原文链接：https://www.oschina.net/news/414712

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

美团：全年研发投入增长 23% 至 260 亿元

美团发布 2025 年 Q4 及全年财报，全年营收 3648.5 亿元，同比增长8.1%，但受即时零售行业“内卷式”竞争影响，全年净亏损 233.5 亿元，经营亏损 170 亿元。其中，核心本地商业板块经营亏损 69 亿元，新业务亏损100.8亿元。集团全年研发投入 260 亿元，同比增长 23%。在此期间，美团基于自研多模态 LongCat 系列大语言模型与开源模型，推出面向用户的AI助手“小美”和“小团”，实现 AI 技术在用户真实消费场景里落地。数据显示，截至目前已有超过 340 万商户运用美团的 AI 商家经营助手。美团CEO王兴在财报电话会上表示，在AI革命中，唯一合理的策略是进攻，而不是防守。但美团不会盲目追求成为“词元工厂”，而是将AI视为战略机遇，用于改进、加强甚至彻底变革本地服务这一核心业务。 “2025年是公司机遇和挑战共存的一年。不管外部环境如何变化，美团的战略方向始终清晰。我们坚决‘反内卷’，专注于做正确的事，通过科技创新、供给升级与生态共建，更好地服务用户与商户，努力践行‘帮大家吃得更好，生活更好’的公司使命。”

2026-03-27

59

作者：路锦（小蘭）概述在移动互联网时代，网络请求性能已成为影响用户体验的关键因素。据统计，转化率会随着页面加载时间增加大幅下降，而移动应用中最常遇到的用户投诉都与"加载慢"、"卡顿"等网络性能问题相关。然而，移动端网络环境的复杂性远超 Web 端：网络环境多样化 WiFi、4G/5G、3G、2G 等多种网络制式共存；信号强弱变化、网络切换频繁；不同地域、运营商的网络质量差异巨大。设备碎片化严重 Android 设备品牌、型号众多；系统版本从 Android 5.0 到最新版本跨度大；设备性能参差不齐，影响网络处理能力。问题排查困难缺乏可见性：传统监控只能看到请求成功/失败和总耗时，无法了解具体耗在哪个环节；难以复现：用户反馈"很慢"，但开发环境下往往无法复现；缺少量化依据：凭感觉优化，无法评估优化效果；端到端追踪缺失：客户端日志缺失，与服务端监控割裂，无法形成完整链路。为了解决上述痛点，我们需要将网络请求的"黑盒"变成"透明盒"，清晰地看到每个环节的耗时。阿里云 CMS 2.0 的实时应用监控服务（RUM）Android SDK 提供了移动端网络性能监控能力...

2026-03-25

53

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。