OpenAI 发布 GPT-5.1-Codex-Max,专为复杂软件工程任务打造

OpenAI 今天推出全新的 GPT-5.1-Codex-Max,定位为下一代代码模型,专为复杂、长期、多阶段的软件工程任务打造。它不仅能写代码、补全函数,还能在数十万字上下文中持续推进大型项目。

这次的最大升级是一个名为 compaction 的上下文压缩机制:模型会在任务进行中自动整理记忆、保留关键信息,让工程任务能在“超长上下文”下持续运行,而不会卡住或遗失状态。

Codex-Max 经过大量真实开发工作训练,包括前端开发、调试、数学推理、PR 编写与代码审查等。在多项工程测试中,它的效率与准确率明显领先上一代模型,同时减少了令牌消耗。

评估项目 指标/表现 说明
SWE-bench Verified (n = 500) 73.7% → 77.9% 在该大规模软件工程任务集上,从上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明显提升。
SWE-Lancer IC SWE 66.3% → 79.9% 在“独立贡献软件工程师任务”集上也有大幅提升。
Terminal-Bench 2.0 52.8% → 58.1% 面向 CLI/终端环境任务,提升虽较小但仍可见。 
上下文长度及 “长期任务”能力 模型可在 “多上下文窗口(multiple context windows)” 环境下使用,持续数小时、甚至超过 24 小时运作。 指其在 “长流程、项目规模” 任务上的能力增强。
令牌效率(token efficiency) 在 “medium reasoning effort” 模式下,与上代相比使用约 少 30% 思考令牌 即可达到更好效果。  有助于降低成本/提升效率。
安全 / 不安全内容评估 (Production Benchmarks) 如 “illicit” 类别:0.860 → 0.920;“sexual/minors”:0.901 → 0.970。 表示在这些模型安全基准上有提升(不过仍有限制说明)。
网络安全 (Cybersecurity) 能力 在多种仿真攻击场景中:   – 网络攻击模拟(Network Attack Simulation)平均 37% 成功率   – 漏洞发现与利用(Vulnerability Discovery and Exploitation)平均 41%   – 回避(Evasion)平均 43%  虽为迄今最强,但官方说明 “尚未达到 High capability” 阈值。
生物/化学领域 (Bio & Chem) 能力 在长形式生物风险问题中,模型 “拒绝率” 达 100%。  表明生物化学属于高风险域,OpenAI 将其标记为 “High risk” 并采用严格防护。

OpenAI 表示,模型的能力增强也带来更高安全要求,特别是在网络安全、生物化学等领域,需要更严格的防护策略。不过在网络安全能力上,它尚未达到“高能力”级别。

目前,GPT-5.1-Codex-Max 已成为 Codex 系列工具的默认模型,正在向开发者与企业逐步开放。

优秀的个人博客,低调大师

微信关注我们

转载内容版权归作者及来源网站所有!本站原创内容转载请注明来源!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。