Cursor 推出 Composer 2.5：基于文本反馈的定向强化学习，每百万输出 token 仅需 2.50 美元-低调大师

Cursor 推出 Composer 2.5：基于文本反馈的定向强化学习，每百万输出 token 仅需 2.50 美元

2026-05-19 72

Cursor 近日正式推出 Composer 2.5，这是其 AI 编程智能体的最新版本。相较于 Composer 2，新版本在智能和行为表现上均有显著提升——更擅长在长时间运行任务中持续工作，更可靠地遵循复杂指令，协作体验也更加顺畅。Cursor 同步披露了多项训练技术细节，包括基于文本反馈的定向强化学习、分片 Muon 与双网格 HSDP 等前沿优化方法。

Composer 2.5 基于与 Composer 2 相同的开源检查点构建，即 Moonshot 的 Kimi K2.5。Cursor 同时宣布正与 SpaceXAI 合作，从零开始训练一个规模显著更大的模型，使用 10 倍的总计算资源。借助 Colossus 2 的 100 万个 H100 等效算力，预计这将带来模型能力的一次重大飞跃。

基于文本反馈的定向强化学习

随着 rollout 可能跨越数十万个 token，RL 中的信用分配正变得越来越困难。当奖励是基于整个 rollout 计算时，模型往往很难判断究竟是哪个具体决策让结果变好或变坏。当模型想抑制某种局部行为时——比如错误的工具调用、让人困惑的解释，或风格不符合要求——这一点尤其受限。最终奖励可以告诉出了问题，但对于具体是在什么地方出错，它只是一个噪声很大的信号。

为了解决这一问题，Cursor 用定向文本反馈训练了 Composer 2.5。核心思路是在轨迹中模型本可以表现得更好的位置，直接提供反馈。对于目标模型消息，团队构造一条描述期望改进的简短提示，将这条提示插入局部上下文中，并将由此得到的模型分布作为教师。原始上下文下的策略则作为学生，团队添加了一个 on-policy 蒸馏 KL 损失，使学生的 token 概率向教师的分布靠拢。这样既能为想要改变的行为提供局部化的训练信号，同时又保留贯穿完整轨迹的更广泛 RL 目标。

以工具调用错误为例：当模型尝试调用一个不可用的工具时，会收到一条"Tool not found"错误，然后继续进行其他有效调用。在数百次工具调用中只出现这一次错误，对其最终奖励的影响会非常有限。借助文本反馈，团队可以通过在有问题那一轮的上下文中插入一条提示来针对这一具体错误，例如"Reminder: Available tools..."，并附上可用工具列表。这条提示会改变教师模型的概率分布，降低错误工具的概率，并提高某个有效替代项的概率。仅针对这一轮，学生模型的权重更新得更接近这些新概率。在 Composer 2.5 的训练过程中，这种方法被应用于编码风格到模型沟通等多种行为维度。

合成数据与奖励作弊风险

在强化学习训练期间，Composer 的编码能力显著提升，逐渐能够正确解决大多数训练问题。为继续提升智能，团队在整个训练过程中动态筛选和生成更难的任务。Composer 2.5 所使用的合成任务数量是 Composer 2 的 25 倍。

团队采用多种方法创建基于真实代码库的合成任务。其中一种合成方法是功能删除：智能体会拿到一个包含大量测试的代码库，被要求以某种方式删除代码和文件，使代码库在保持可运行的同时移除特定的、可测试的功能。合成任务则是重新实现该功能，测试则被用作可验证的奖励信号。

大规模创建合成任务带来的连带后果是可能引发意料之外的奖励作弊。随着模型能力不断增强，Composer 2.5 找到了越来越复杂的变通办法来完成当前任务。例如，模型发现了一个残留的 Python 类型检查缓存，并通过逆向其格式找到了一个已删除的函数签名；另一个例子是能够找到并反编译 Java 字节码，从而重建一个第三方 API。团队借助智能体监控工具发现并诊断了这些问题，但它们也表明在大规模强化学习中必须更加谨慎。

分片 Muon 与双网格 HSDP 优化

对于持续预训练，Cursor 使用带分布式正交化的 Muon。在形成动量更新后，团队按照模型的自然粒度运行 Newton-Schulz：注意力投影按每个注意力头处理，堆叠的 MoE 权重则按每个专家处理。

主要开销在于对专家权重进行正交化。对于分片参数，团队将形状相同的张量成批处理，通过 all-to-all 将分片聚合成完整矩阵，运行 Newton-Schulz，然后再通过 all-to-all 将结果发回原始的分片布局。这些传输是异步的：当一个任务在等待通信时，优化器运行时会继续推进其他 Muon 任务，从而让网络通信与计算重叠进行。这等价于完整矩阵 Muon，但能让分片组持续保持忙碌。在 1T 模型上，优化器每步耗时仅为 0.2 秒。

这与 MoE 模型中使用 HSDP 的方式紧密相关。HSDP 会形成多个 FSDP 副本，并在对应分片之间对梯度执行 all-reduce。团队对非专家权重和专家权重使用不同的 HSDP 布局：非专家权重相对较小，因此其 FSDP 组可以保持较窄，通常位于单个节点或机架内；而专家权重承载了大部分参数以及大部分 Muon 计算，因此使用更宽的专家分片网格。将这些布局分开，也能让彼此独立的并行维度实现重叠：CP=2 和 EP=8 可以在 8 个 GPU 上运行，而不必在单个共享网格中占用 16 个 GPU。这样既避免了小规模非专家状态上的大范围通信，也能将专家优化器工作分摊到更多 GPU 上。

定价与可用性

Composer 2.5 现已在 Cursor 中推出，标准版本价格为每百万输入 token 2.50 美元。此外还有一个智能水平相同但速度更快的变体，价格为每百万输入 token 15.00 美元，成本低于其他前沿模型的 fast 方案。与 Composer 2 一样，fast 是默认选项。Composer 2.5 在第一周提供双倍用量。

Cursor 表示，除了让 Composer 2.5 在更高难度的任务上训练之外，团队还改进了模型在沟通风格和投入级别校准等行为层面的表现。这些维度很难通过现有基准充分反映，但对实际使用效果非常重要。

参考来源：

Cursor 官方博客原文：https://cursor.com/cn/blog/composer-2-5
arxiv: Self-Distillation Enables Continual Learning：https://arxiv.org/abs/2601.19897
arxiv: Reinforcement Learning via Self-Distillation：https://arxiv.org/abs/2601.20802
arxiv: Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models：https://arxiv.org/abs/2601.18734

微信关注我们

原文链接：https://www.oschina.net/news/442627/composer-2-5

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Meta 本周启动新一轮大裁员：8000 个岗位被裁，AI 投资与劳动力削减并行

Meta 本周正式启动新一轮大规模裁员，约 8000 个岗位被裁，同时该公司大幅增加 AI 领域投资，2026 年资本支出指引提升至最高 1450 亿美元。这一举措标志着 Meta 首席执行官马克·扎克伯格对裁员的态度已发生根本性转变。早在 2022 年底，当 Meta 首次宣布裁员 11000 人、最终扩大至 21000 人时，扎克伯格曾表达悔意。他在一封致员工的信中表示："我犯了错误，我为此承担责任。"彼时 Meta 股价正经历自由落体式下跌。2023 年初，他将这些裁员描述为 Meta"效率之年"的一部分。然而，三年后的今天，最新...

2026-05-19

59

翻译自：https://frederickvanbrabant.com/blog/2026-05-15-i-dont-think-ai-will-make-your-processes-go-faster/ 我有一种感觉：几乎每家组织都在或多或少地关注流程优化，尤其是在市场低迷时期更是如此。如今这个话题又多了一个人工智能的维度，以及随之而来的种种不切实际的期望。为了充分准备这个话题，我重读了两本经典著作：《丰田之路》和《目标》。我在大学期间读过这两本书，但重读之后让我意识到，很多流程优化练习本质上过于简单化，而且往往误解了真正应该关注的地方。以一个甘特图为例：如果你的任务是提高项目吞吐量，...

2026-05-19

62

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。