AI 三巨头惨遭滑铁卢:最新编程测试正确率全线跌破 25%
Scale AI全新推出的SWE-BENCH PRO编程测评结果显示,GPT-5、Claude Opus4.1和 Gemini2.5 没有一个模型能够突破25%的解决率大关。
其中,GPT-5仅仅取得了23.3%的成绩,Claude Opus4.1紧随其后拿到22.7%,而Google的Gemini2.5 则是跌至13.5%。
前OpenAI研究员Neil Chowdhury解析称,GPT-5在那些它选择尝试解决的任务中,实际准确率高达63%,这个数字远远甩开了Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着相当的竞争优势。
与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的测试团队刻意规避了那些可能已经被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。
SWE-BENCH PRO的测试范围涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。
因此,测试结果也暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
英伟达将逐步向 OpenAI 投资最多 1000 亿美元
当地时间9月22日,OpenAI与英伟达宣布建立合作伙伴关系的意向书。 英伟达有意将逐步向OpenAI投资最多1000亿美元,用于支持数据中心及相关基础设施建设。双方合作将为OpenAI的下一代人工智能基础设施部署至少10吉瓦的英伟达系统,首批吉瓦级英伟达系统将于2026年下半年部署。这一耗电量相当于800万户美国家庭的用电量。 英伟达CEO黄仁勋周一在接受采访时表示,10吉瓦相当于400万至500万块图形处理器(GPU),约等于英伟达今年的出货总量,是去年的两倍。“这是一个庞大的项目”,黄仁勋与OpenAI首席执行官奥尔特曼以及总裁布罗克曼一同接受采访时表示。 据知情人士透露,英伟达首笔100亿美元投资将在第一个吉瓦数据中心建成时投入。投资将按当时的估值进行。双方表示,英伟达将随着每一吉瓦数据中心上线逐步投资,首个阶段预计在2026年下半年启用,基于英伟达的Vera Rubin平台。合作细节将在未来数周敲定。
-
下一篇
DeepSeek-V3.1-Terminus 发布,缓解偶发异常字符情况
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。 此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括: 语言一致性:缓解了中英文混杂、偶发异常字符等情况; Agent 能力:进一步优化了 Code Agent 与 Search Agent 的表现。 DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定,新模型各领域测评结果如下: 注:Search Agent 的工具集与上一版有所不同,具体工具细节请查看 HuggingFace 文档 目前,官方 App、网页端、小程序与 DeepSeek API 模型均已同步更新为 DeepSeek-V3.1-Terminus。 开源版本下载地址如下: Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
相关文章
文章评论
共有0条评论来说两句吧...