您现在的位置是:首页 > 文章详情

AI 三巨头惨遭滑铁卢:最新编程测试正确率全线跌破 25%

日期:2025-09-23点击:4

Scale AI全新推出的SWE-BENCH PRO编程测评结果显示,GPT-5、Claude Opus4.1和 Gemini2.5 没有一个模型能够突破25%的解决率大关。

其中,GPT-5仅仅取得了23.3%的成绩,Claude Opus4.1紧随其后拿到22.7%,而Google的Gemini2.5 则是跌至13.5%。

前OpenAI研究员Neil Chowdhury解析称,GPT-5在那些它选择尝试解决的任务中,实际准确率高达63%,这个数字远远甩开了Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着相当的竞争优势。

与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的测试团队刻意规避了那些可能已经被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。

SWE-BENCH PRO的测试范围涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。

因此,测试结果也暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

原文链接:https://www.oschina.net/news/373847
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章