AI 三巨头惨遭滑铁卢:最新编程测试正确率全线跌破 25%
Scale AI全新推出的SWE-BENCH PRO编程测评结果显示,GPT-5、Claude Opus4.1和 Gemini2.5 没有一个模型能够突破25%的解决率大关。 其中,GPT-5仅仅取得了23.3%的成绩,Claude Opus4.1紧随其后拿到22.7%,而Google的Gemini2.5 则是跌至13.5%。 前OpenAI研究员Neil Chowdhury解析称,GPT-5在那些它选择尝试解决的任务中,实际准确率高达63%,这个数字远远甩开了Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着相当的竞争优势。 与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的测试团队刻意规避了那些可能已经被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。 SWE-BENCH PRO的测试范围涵盖了1865个来自商业应用和开发者工具的真实问题。这些题...
