OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造-低调大师

OpenAI 发布 GPT-5.1-Codex-Max，专为复杂软件工程任务打造

2025-11-20 154

OpenAI 今天推出全新的 GPT-5.1-Codex-Max，定位为下一代代码模型，专为复杂、长期、多阶段的软件工程任务打造。它不仅能写代码、补全函数，还能在数十万字上下文中持续推进大型项目。

这次的最大升级是一个名为 compaction 的上下文压缩机制：模型会在任务进行中自动整理记忆、保留关键信息，让工程任务能在“超长上下文”下持续运行，而不会卡住或遗失状态。

Codex-Max 经过大量真实开发工作训练，包括前端开发、调试、数学推理、PR 编写与代码审查等。在多项工程测试中，它的效率与准确率明显领先上一代模型，同时减少了令牌消耗。

评估项目	指标／表现	说明
SWE-bench Verified (n = 500)	73.7% → 77.9%	在该大规模软件工程任务集上，从上代 GPT‑5.1‑Codex 到 GPT-5.1-Codex-Max 有明显提升。
SWE-Lancer IC SWE	66.3% → 79.9%	在“独立贡献软件工程师任务”集上也有大幅提升。
Terminal-Bench 2.0	52.8% → 58.1%	面向 CLI／终端环境任务，提升虽较小但仍可见。
上下文长度及 “长期任务”能力	模型可在 “多上下文窗口（multiple context windows）” 环境下使用，持续数小时、甚至超过 24 小时运作。	指其在 “长流程、项目规模” 任务上的能力增强。
令牌效率（token efficiency）	在 “medium reasoning effort” 模式下，与上代相比使用约少 30% 思考令牌即可达到更好效果。	有助于降低成本／提升效率。
安全 / 不安全内容评估 (Production Benchmarks)	如 “illicit” 类别：0.860 → 0.920；“sexual/minors”：0.901 → 0.970。	表示在这些模型安全基准上有提升（不过仍有限制说明）。
网络安全 (Cybersecurity) 能力	在多种仿真攻击场景中： – 网络攻击模拟（Network Attack Simulation）平均 37% 成功率 – 漏洞发现与利用（Vulnerability Discovery and Exploitation）平均 41% – 回避（Evasion）平均 43%	虽为迄今最强，但官方说明 “尚未达到 High capability” 阈值。
生物／化学领域 (Bio & Chem) 能力	在长形式生物风险问题中，模型 “拒绝率” 达 100%。	表明生物化学属于高风险域，OpenAI 将其标记为 “High risk” 并采用严格防护。

OpenAI 表示，模型的能力增强也带来更高安全要求，特别是在网络安全、生物化学等领域，需要更严格的防护策略。不过在网络安全能力上，它尚未达到“高能力”级别。

目前，GPT-5.1-Codex-Max 已成为 Codex 系列工具的默认模型，正在向开发者与企业逐步开放。

微信关注我们

原文链接：https://www.oschina.net/news/384728/openai-gpt-5-1-codex-max

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

聚焦东软解决方案论坛：锚定数据价值化新品+实践齐亮相

【2025年11月20日，福州】在AI深度重塑全球产业格局、数据跃升为驱动社会经济发展核心动力的关键节点，11月20日，东软解决方案论坛2025以“数据创造社会价值”为主题在福州启幕。论坛期间，东软全面介绍数据空间架构，正式发布面向城市就业、智慧医院等领域的多款创新产品，并全方位呈现数据价值化的业务布局与落地成果。同时，东软联合关键客户分享了众多场景应用实践，为行业智能化转型提供新思路、新范式。时代洞察：数字经济进入3.0场景驱动阶段东软集团联席总裁兼首席运营官盖龙佳在主论坛上发表主旨演讲时指出，智能化浪潮正席卷全球，一个由算力、算法与数据交响共鸣的智能世界，已从未来走向现实。今天的城市是物理空间和数字空间的融合，越来越多的经济行为和社会行为正在从物理空间走向数据空间，两个空间的互动将成为未来的必然发展趋势。在这样的时代背景下，数据和智能成为城市的重要基础设施，与社会生产生活深度融合，数字经济成为推动经济体系发展和转型的重要驱动。盖龙佳认为：“有场景，才有前景”。当前，数字经济的发展已经由1.0算力阶段、2.0数据治理与交易阶段，发展到今天进入到3.0场景驱动的阶段。场景化落地...

2025-11-21

168

上海创智学院携手上海奇绩智峰、模思智能、跨赴科技等组织共同发布了下一代能动性模型体系与开源生态——Nex。据介绍，此项目旨在构建可持续迭代的能动性闭环开源生态，以技术突破赋能产业升级，真正推动 AI 能动性时代的到来。作为集模型、数据、Agent 开发框架与基础设施代码于一体的 AI Agent 全栈解决方案，Nex 致力于大幅降低 AI Agent 的开发与部署门槛，为学术界科研人员、产业界创业者提供高性能、高稳定、低成本的“开箱即用”能动体系，助力开发者将 AI 能动性快速落地各类应用场景。核心优势体现在以下三个维度： 1. 性能领先：全尺寸覆盖，全能场景适配全尺寸模型矩阵：涵盖 8B 到 671B 全尺度模型，灵活满足从轻量级嵌入式场景到高性能复杂任务的多样化需求；强能动性表现：在通用能力、氛围编程、网页搜索、工具调用等复杂任务中达到行业领先水平，具备高效解决复杂问题的能力；高实用价值：在小程序开发、网页编写、幻灯片制作、角色扮演等真实生产力场景中表现出色，可提升工作效率。 2. 全面开源：端到端闭环，全链路开源端到端自主可控：开发者可直接基于 Nex 完成从数据构造...

2025-11-20

212

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。