AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%-低调大师

AI 三巨头惨遭滑铁卢：最新编程测试正确率全线跌破 25%

2025-09-23 91

Scale AI全新推出的SWE-BENCH PRO编程测评结果显示，GPT-5、Claude Opus4.1和 Gemini2.5 没有一个模型能够突破25%的解决率大关。

其中，GPT-5仅仅取得了23.3%的成绩，Claude Opus4.1紧随其后拿到22.7%，而Google的Gemini2.5 则是跌至13.5%。

前OpenAI研究员Neil Chowdhury解析称，GPT-5在那些它选择尝试解决的任务中，实际准确率高达63%，这个数字远远甩开了Claude Opus4.1的31%。这意味着，虽然GPT-5在整体表现上看似平庸，但在其擅长的领域内，这个模型仍然保持着相当的竞争优势。

与过去那些动辄70%正确率的SWE-Bench-Verified测试相比，SWE-BENCH PRO的测试团队刻意规避了那些可能已经被用于模型训练的数据，彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是，模型们再也无法依靠记忆中的答案来蒙混过关，必须展现出真正的推理和解决问题的能力。

SWE-BENCH PRO的测试范围涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被分为公共集、商业集和保留集三个层次，确保每一个模型在接受评测时都面临着全新的挑战。研究团队还在测试过程中引入了人工增强机制，进一步提升了任务的复杂性和真实性。

因此，测试结果也暴露了当前AI模型的软肋。在解决实际商业问题时，这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上，各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现，不同模型在理解和处理同类任务时展现出了显著的差异化表现，这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

微信关注我们

原文链接：https://www.oschina.net/news/373847

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英伟达将逐步向 OpenAI 投资最多 1000 亿美元

当地时间9月22日，OpenAI与英伟达宣布建立合作伙伴关系的意向书。英伟达有意将逐步向OpenAI投资最多1000亿美元，用于支持数据中心及相关基础设施建设。双方合作将为OpenAI的下一代人工智能基础设施部署至少10吉瓦的英伟达系统，首批吉瓦级英伟达系统将于2026年下半年部署。这一耗电量相当于800万户美国家庭的用电量。英伟达CEO黄仁勋周一在接受采访时表示，10吉瓦相当于400万至500万块图形处理器（GPU），约等于英伟达今年的出货总量，是去年的两倍。“这是一个庞大的项目”，黄仁勋与OpenAI首席执行官奥尔特曼以及总裁布罗克曼一同接受采访时表示。据知情人士透露，英伟达首笔100亿美元投资将在第一个吉瓦数据中心建成时投入。投资将按当时的估值进行。双方表示，英伟达将随着每一吉瓦数据中心上线逐步投资，首个阶段预计在2026年下半年启用，基于英伟达的Vera Rubin平台。合作细节将在未来数周敲定。

2025-09-23

102

DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。此次更新在保持模型原有能力的基础上，针对用户反馈的问题进行了改进，包括：语言一致性：缓解了中英文混杂、偶发异常字符等情况； Agent 能力：进一步优化了 Code Agent 与 Search Agent 的表现。 DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定，新模型各领域测评结果如下：注：Search Agent 的工具集与上一版有所不同，具体工具细节请查看 HuggingFace 文档目前，官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。开源版本下载地址如下： Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus ModelScope：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

2025-09-23

111

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。