Cognition 发布 FrontierCode，首个衡量代码“可合并性”的 AI 编程评测基准-低调大师

Cognition 发布 FrontierCode，首个衡量代码“可合并性”的 AI 编程评测基准

2026-06-09 62

当AI编程模型的代码正确性已不再是一个问题，如何衡量代码"质量"就成了新的焦点。Cognition日前发布了FrontierCode，这是一个专门衡量AI模型能否写出达到生产合并标准的代码的评测基准。与现有编程评测基准不同，FrontierCode不去评估"代码对不对"，而是"维护者会不会真的合并这个PR"。

当前主流编程评测基准如SWE-Bench Verified和Pro，设计时针对的是能力较弱阶段的模型。这些基准存在明显的局限性：它们只验证代码的功能正确性，不验证代码质量；此外误分类错误率较高——即通过测试的代码补丁未必能被人类维护者真正接受。METR的实验进一步证实，许多在现有基准上高分的模型，生成的补丁在实际代码审核中会被拒绝。

FrontierCode的解决思路是与开源社区顶级维护者合作。36个旗舰开源项目的维护者参与了任务构建，每人花在每个任务上的时间超过40小时。他们定义了各自代码仓库中"可合并"的具体标准，并将这些标准转化为评分规则。

评分维度包括：行为正确性（补丁是否有效解决问题）、回归安全性（是否破坏现有功能）、机械清洁度（构建/检查是否通过）、测试质量（AI Agent编写的测试是否真正捕捉到目标行为）、代码范围（是否只修改了必要的部分）以及代码质量（是否符合代码库规范和设计模式）。

为解决测试覆盖不足导致的问题，FrontierCode引入了"反向经典测试"机制：Agent提交的测试在原始有缺陷的代码库上运行时必须失败，这确保了测试的有效性。此外还引入了"自适应经典评分"方法，使用LLM将参考测试或应用代码适配到Agent的实现细节上，从而在开放性任务中对多样化解法进行严格而确定的测试。

FrontierCode共包含150个任务，分为三个难度子集：Diamond（50个最难）、Main（100个）和Extended（全部150个）。目前最佳模型Claude Opus 4.8在Diamond上仅得分13.4%，GPT-5.5得6.3%，Gemini 3.1 Pro得4.7%——即使是当前最强大的模型，在这项新标准下仍有巨大提升空间。开源模型中表现最好的Kimi K2.6在Diamond上仅得3.8%。

Cognition表示，FrontierCode的评分误差比SWE-Bench Pro低81%，是目前最准确模型能力排名。但为防止任务污染，Cognition不打算公开任务内容，而是向所有模型开发者开放评测服务，希望推动前沿编程能力的进一步突破。

参考来源： https://cognition.ai/blog/frontier-code

微信关注我们

原文链接：https://www.oschina.net/news/454773

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

苹果发布 Core AI 框架：整合 CPU、GPU 与神经网络引擎的设备端 AI 推理平台

苹果在WWDC 2026期间正式发布了Core AI框架，这是一款专为Apple芯片设计的设备端AI模型运行框架，开发者可通过它在自己的应用中构建、运行和部署AI模型。Core AI的核心理念是将最新模型架构和推理技术与苹果自研芯片的异构计算能力相结合——CPU、GPU和神经网络引擎（Neural Engine）协同工作，根据任务负载自动分配计算资源。 Core AI采用Swift API设计，常用任务可以直接调用高层接口完成，同时在需要时也支持对模型专门化（specialization）、缓存策略和推理性能进行精细控制。框架与Xcode深度集成，提供Core AI调试...

2026-06-09

57

CyreneAdmin 是一款面向企业级应用的后台管理系统脚手架，同时支持 Spring Boot 与 Solon 双框架，内置权限控制、用户管理、菜单配置、操作日志等核心模块，助力开发者快速构建安全、可维护的管理后台。最新版本 v1.4.1 已正式发布，主要更新内容如下： Bug Fixes 将 BusinessException 改为继承 RuntimeException，确保事务正确回滚处理登录用户为空时强制退出修复[Security-高危] CVE-2025-58754 - Axios 安全漏洞修复[Security-中危] CVE-2025-31486 - Vite 安全漏洞...

2026-06-09

48

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。