Cognition 发布 FrontierCode,首个衡量代码“可合并性”的 AI 编程评测基准
当AI编程模型的代码正确性已不再是一个问题,如何衡量代码"质量"就成了新的焦点。Cognition日前发布了FrontierCode,这是一个专门衡量AI模型能否写出达到生产合并标准的代码的评测基准。与现有编程评测基准不同,FrontierCode不去评估"代码对不对",而是"维护者会不会真的合并这个PR"。 当前主流编程评测基准如SWE-Bench Verified和Pro,设计时针对的是能力较弱阶段的模型。这些基准存在明显的局限性:它们只验证代码的功能正确性,不验证代码质量;此外误分类错误率较高——即通过测...