月之暗面宣布正式发布并开源其迄今最强的代码模型 Kimi K2.6 模型,“带来行业领先(state-of-the-art)的代码、长程任务执行和 Agent 集群能力”。
目前,Kimi K2.6 已面向所有免费用户、付费订阅用户、Kimi Code 和企业 API 用户开放。

根据介绍,Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升,其中在博士级难度的完整版人类最后的考试(Humanity's Last Exam)、在考察模型真实软件工程能力的 SWE-Bench Pro、评估 Agent 深度检索能力的 DeepSearchQA 等基准测试中均取得行业领先的成绩,持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro等闭源模型。
Kimi K2.6 长程编码能力得到显著提升,在测试中可以不间断编码 13 小时,编写或修改超过 4000 行代码,完成复杂系统的开发和优化。通过将代码与视觉能力的深度融合,K2.6 将代码驱动的设计能力提升到了新高度,可以交付极具设计创意的专业级 Web 应用。
面对不同编程语言(如 Rust、Go、Python)和任务场景(如前端、运维、性能优化)均具备更可靠的泛化能力。在涵盖了多种复杂端到端任务的、Kimi 内部严格代码评测基准 Kimi Code Bench 中,K2.6 的成绩比 K2.5 提升了约 20%。

Kimi K2.6 大幅增强了 Agent 自主化执行能力:
K2.6 Agent 能够生成视觉风格高度统一的素材,构建视觉焦点突出的首屏区(Hero Section),并且实现各种交互元素和丰富的滚动触发等动效。且 K2.6 Agent 不局限于写前端页面,也支持基础的后端数据库模块,例如在生成网页中嵌入表单信息收集的功能。凭借更强的多模态编程能力,K2.6 还能够更精准地将图像和视频素材转化为代码。
项目团队还创建了一套专门的前端开发设计评测基准( Kimi Design Bench),涵盖视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。对比 Google AI Studio 中的 Gemini 3 模型,基于 kimi.com 框架的 K2.6 Agent 展现出了非常明显的领先优势。

此外,其还开启了小范围内测的「Claw 群组」。
「Claw群组」的目标是拥抱开放、异构的生态:多个 Agent 与人类作为真正的协作者共同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent(首批支持 OpenClaw,后续会加入对 Hermes Agent 等框架的支持),每个 Agent 可携带各自的专业工具包、技能和持久化记忆上下文。无论是部署在本地笔记本电脑、移动设备还是云端实例,这些各异的 Agent 都能进入同一个协同办公群组。
在「Claw群组」中,K2.6 担任协调者。它根据 Agent 的技能画像和可用工具动态匹配任务,实现能力的最优配置。当某个 Agent 遇到故障或停滞时,协调者会检测到中断,自动重新分配任务或生成子任务,并对 Agent 交付物的全生命周期(从启动、验证到完成)进行主动管理。
Kimi Claw 用户会陆续收到「Claw群组」的内测邀请。