智谱宣布上线并开源 GLM-5.2,并在 Code Arena 评估系统上取得全球可用模型第一的表现。

GLM-5.2专为长程任务能力而生,全新特色包括:
- Solid 1M上下文,稳定支撑长程任务。多个长程任务基准表明GLM-5.2的表现介于Claude Opus 4.7与4.8之间,是排名最高的开源模型。在FrontierSWE(测试AI是否能够像软件工程师在数小时尺度上完成复杂技术项目的测试集)上仅比Opus 4.8低1%,超过GPT-5.5(1%)和Opus 4.7(11%);不过在SWE-Marathon(考察Agent自主完成超长软件工程的测试集)上确实还需要进一步提高,低于Opus 4.8不少(13%)。

- 更强体感,更实用的 Coding 能力。GLM-5.2在前端、后端、长程任务上的成功率相比前一代GLM-5.1都有提升,复杂系统工程与深度调试更稳。在主流编程基准上,GLM-5.2保持开源SOTA,与Claude Opus 4.8处于可比区间。例如在Terminal-Bench 2.1(评测AI Agent完成不同类型的计算机终端任务),GLM-5.2比Opus 4.8低4%,相比GLM-5.1提升了17.5%;在MCP-Atlas(大规模工具调研评测的数据集),GLM-5.2比Opus 4.8低0.8%。

GLM-5.2还引入了effort level(思考档位)控制,可以在能力、速度、成本之间做出平衡。在相近的token预算下,GLM-5.2的Coding能力大致位于Claude Opus 4.7与Claude Opus 4.8之间。

- 极致 Infra 优化,Day 0 运行在国产算力平台。项目团队提出了 IndexShare,在每四层稀疏注意力层之间复用同一个索引器(indexer),在1M上下文长度下,将单位token的FLOPs降低至2.9倍。还改进了用于投机解码(speculative decoding)的MTP层,将接受长度(acceptance length)最多提升20%。训练侧则依赖自研Slime框架支撑大规模Agentic RL和OPD训练。

智谱方面还表示,接下来其将瞄向完全自治的智能体系统(Autonomous Agent System)。基于长程任务之上,让AI能够自主驱动、协同作业、7×24小时运转的智能体群体将成为新的生产力形态。