OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造
OpenAI 今天推出全新的 GPT-5.1-Codex-Max,定位为下一代代码模型,专为复杂、长期、多阶段的软件工程任务打造。它不仅能写代码、补全函数,还能在数十万字上下文中持续推进大型项目。
这次的最大升级是一个名为 compaction 的上下文压缩机制:模型会在任务进行中自动整理记忆、保留关键信息,让工程任务能在“超长上下文”下持续运行,而不会卡住或遗失状态。
Codex-Max 经过大量真实开发工作训练,包括前端开发、调试、数学推理、PR 编写与代码审查等。在多项工程测试中,它的效率与准确率明显领先上一代模型,同时减少了令牌消耗。
| 评估项目 | 指标/表现 | 说明 |
|---|---|---|
| SWE-bench Verified (n = 500) | 73.7% → 77.9% | 在该大规模软件工程任务集上,从上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明显提升。 |
| SWE-Lancer IC SWE | 66.3% → 79.9% | 在“独立贡献软件工程师任务”集上也有大幅提升。 |
| Terminal-Bench 2.0 | 52.8% → 58.1% | 面向 CLI/终端环境任务,提升虽较小但仍可见。 |
| 上下文长度及 “长期任务”能力 | 模型可在 “多上下文窗口(multiple context windows)” 环境下使用,持续数小时、甚至超过 24 小时运作。 | 指其在 “长流程、项目规模” 任务上的能力增强。 |
| 令牌效率(token efficiency) | 在 “medium reasoning effort” 模式下,与上代相比使用约 少 30% 思考令牌 即可达到更好效果。 | 有助于降低成本/提升效率。 |
| 安全 / 不安全内容评估 (Production Benchmarks) | 如 “illicit” 类别:0.860 → 0.920;“sexual/minors”:0.901 → 0.970。 | 表示在这些模型安全基准上有提升(不过仍有限制说明)。 |
| 网络安全 (Cybersecurity) 能力 | 在多种仿真攻击场景中: – 网络攻击模拟(Network Attack Simulation)平均 37% 成功率 – 漏洞发现与利用(Vulnerability Discovery and Exploitation)平均 41% – 回避(Evasion)平均 43% | 虽为迄今最强,但官方说明 “尚未达到 High capability” 阈值。 |
| 生物/化学领域 (Bio & Chem) 能力 | 在长形式生物风险问题中,模型 “拒绝率” 达 100%。 | 表明生物化学属于高风险域,OpenAI 将其标记为 “High risk” 并采用严格防护。 |
OpenAI 表示,模型的能力增强也带来更高安全要求,特别是在网络安全、生物化学等领域,需要更严格的防护策略。不过在网络安全能力上,它尚未达到“高能力”级别。
目前,GPT-5.1-Codex-Max 已成为 Codex 系列工具的默认模型,正在向开发者与企业逐步开放。
