揭秘 MiniMax M2 Agent 能力技术细节：Interleaved Thinking（交错思维链）-低调大师

揭秘 MiniMax M2 Agent 能力技术细节：Interleaved Thinking（交错思维链）

2025-11-04 15 89

中国 AI 独角兽公司稀宇科技上周发布并开源其新一代文本大模型 MiniMax-M2：

顶级代码能力：专为端到端开发工作流打造，在 Claude Code、Cursor、Cline、Kilo Code、Droid 等多种应用中表现卓越
强大 Agentic 表现：出色规划并稳定执行复杂长链条工具调用任务，协同调用 Shell、Browser、Python 代码执行器和各种 MCP 工具

其团队表示，在 M2 研发的早期阶段，他们就发现了 Interleaved Thinking（交错思维链）在 Agent 和 Coding 应用中的重要性。

除 Anthropic Claude 外，目前大多数模型还未完全支持 Interleaved Thinking，它仍是业内的非共识。从用户反馈中我们也注意到，Interleaved Thinking 在实际应用中有时并未被正确使用。

为什么 Interleaved Thinking 重要，以及如何在不同 API 接口中有效地使用 Interleaved Thinking 以获得最佳效果？

下文是 MiniMax 对“Interleaved Thinking”的内部思考。

为什么 Interleaved Thinking 如此重要？

Interleaved Thinking 对 Agent 至关重要：它指在显式推理（reasoning）与工具调用（tool use）之间交替进行，并把推理结果持续带入后续步骤。这一过程能显著提升在长程任务中的规划能力、自我修正能力与可靠性。

在实践中，它将冗长、重度依赖工具的任务转化为稳定的 “计划→行动→反思” 循环，减少状态漂移与重复性错误，同时确保每一步行动都基于最新证据（evidence）。Interleaved Thinking 同时提升了可调试性：通过推理过程的快照让故障变得可解释与可恢复，并通过复用假设、约束与部分结论（而不是重新推导每个步骤）从而提高样本效率。

为获得最佳效果，与其在一开始完成所有思考，不如将思考与工具反馈交错进行，保持思维链的连贯性，使其在多轮交互中不断累积。

从社区开发者反馈中，我们发现部分失败案例源于没有正确使用 Interleaved thinking，即未能在多轮会话之间保留之前每一轮的思考状态。问题的原因之一是，社区广泛使用的 OpenAI Chat Completion API 并不支持返回推理内容，并在后续请求中再次传递。

Anthropic API 虽然原生支持该能力，但社区对 Claude 之外的模型支持得较少，并且许多应用在其 Anthropic API 的实现中仍然没有回传之前的思考过程。这种情况导致 Interleaved Thinking 并没有得到良好的支持。而为了完全释放 M2 的全部能力，在多轮交互中保留思考过程至关重要。

在 MiniMax M2 中，只有保留并把上一轮的推理反馈到后续轮次，Interleaved CoT 才能发挥最大效果。模型会在工具调用之间进行推理，将计划、假设、约束与中间结论持续向后传递—— 正是这种可持续、可累积的推理状态让 M2 模型稳定可靠。一旦丢弃了之前的推理状态，模型的累积理解能力会下降，状态偏离会增加，自我修正能力会减弱，规划能力也会退化，尤其在长程（long-horizon）工具调用和 “运行–修复” 循环中更为明显。

多项基准测试表明，保留之前多轮交互的思维状态更能提高性能：

SWE‑Bench Verified：69.4 vs. 67.2 (Δ=+2.2; +3.3%)
Tau^2：87 vs. 64 (Δ=+23; +35.9%)
BrowseComp：44.0 vs. 31.4 (Δ=+12.6; +40.1%)
GAIA：75.7 vs. 67.9 (Δ=+7.8; +11.5%)
xBench：72.0 vs. 66.0 (Δ=+6.0; +9.1%)

保持 Interleaved Thinking 状态完整至关重要 —— 模型的可靠性不仅在于它当前的想法，更在于它能否回顾和修正之前的想法。Interleaved Thinking 把这一过程机制化：计划 → 行动 → 反思，且状态始终保留，让反思得以累积，让修正在多轮交互中传递。

图解 Interleaved Thinking

详情查看：
https://mp.weixin.qq.com/s/az9OvwEKJ_vYifqlfw6rWA
https://huggingface.co/blog/MiniMax-AI/aligning-to-what

微信关注我们

原文链接：https://www.oschina.net/news/381556

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2025-11-04 18:05:00

招募进行时 | MoonBit AI : 程序语言 & 大模型

让编程语言与大模型深度融合，MoonBit Pilot 项目期待您的加入！随着 AI 大语言模型（LLM）技术的持续突破，编程正迎来一次从“辅助开发”走向“智能交付”的深刻变革。从 ChatGPT、Claude 到 LLaMA，AI 正以前所未有的速度重塑开发方式。在这一浪潮中，MoonBit 团队正全力打造新一代 AI 原生开发平台——MoonBit Pilot。它基于自研编程语言 MoonBit，深度融合大模型语义理解与编译器智能，目标是让开发者能用自然语言描述意图，系统即可生成、修复与重构完整软件。 MoonBit Pilot 目前已进入关键开发阶段。我们正招募对 AI 编程、语义分析、智能体系统与语言工具链充满热情的伙伴，共同探索如何让 AI 真正“读懂”代码，重构软件开发的未来。关于MoonBit Pilot MoonBit Pilot 是业界首个语言内置的原生智能体。它具备自动合成与智能重构能力，能够理解、规划并精准执行开发任务，实现从指令到交付的全流程自动化。在 126 项真实修复任务中，MoonBit Pilot 全程零人工干预，平均仅用 7 分钟完成，效...

20

2025-11-04 18:41:00

TinyEngine - 低代码引擎

TinyEngine 是开源低代码引擎，使能开发者定制低代码平台，支持在线实时构建低码平台，支持二次开发或集成低码平台能力。架构：特性：跨端跨框架前端组件支持在线实时构建、支持二次开发或被集成直接生成可部署的源码，运行时无需引擎支撑允许接入第三方组件、允许定制扩展插件支持高代码与低代码，混合开发部署应用平台接入 AI 大模型能力，辅助开发者构建应用

13

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。