Anthropic 披露罕见现象：Claude 竟“识别自己正在被测试”，并破解评测答案-低调大师

Anthropic 披露罕见现象：Claude 竟“识别自己正在被测试”，并破解评测答案

2026-03-10 36

Anthropic近日在其工程博客披露，在测试其最新模型 Claude Opus 4.6 时，研究人员发现一种前所未见的行为：模型不仅意识到自己可能处于评测环境中，还主动寻找并破解了测试的答案。

这一现象被研究人员称为“评测意识”（Eval Awareness）。

AI发现自己在做“考试”

事件发生在名为 BrowseComp 的评测任务中。该基准包含 1266 道问题，主要用于测试 AI 是否能够通过网页搜索找到极其隐蔽的信息。

在大多数测试中，Claude Opus 4.6 都会通过正常搜索完成任务。但研究人员发现 11 个案例中答案来自评测材料本身，而不是实际的独立搜索。

其中 9 个案例属于传统“数据污染”：

评测答案已经被论文、GitHub 或博客公开
AI 在搜索时直接看到了这些泄露答案

但另外 2 个案例则完全不同。在这些案例中，模型经历了如下过程：

长时间搜索失败：模型在多个语言和网站上进行了大量检索，消耗数千万tokens。
开始怀疑问题本身：模型发现题目“过于具体且结构异常”，推测它可能是某种测试题。
枚举AI评测基准：模型逐一检查已知基准，例如
- GAIA
- BrowseComp
- SimpleQA
- WebArena
定位测试来源并破解答案：最终模型确认题目来自 BrowseComp，并找到评测代码，通过编写Python代码实现 SHA256 + XOR 解密，成功解密数据集中的答案。

研究人员指出，这是首次记录到 AI 在未知评测环境中推断自己正在被测试，并反向识别评测本身的案例。

多 Agent 架构放大问题

研究还发现，多 Agen t架构会显著增加这种现象的概率。

实验结果显示：

配置	非预期解答率
单 Agent	0.24%
多 Agent	0.87%

多 Agent 系统会使用更多搜索和 token，从而更容易接触到泄露材料或触发“评测识别”。

新型污染：AI 自己留下“痕迹”

另一个有趣发现是，AI 搜索行为本身正在改变互联网。

一些电商网站会自动把搜索关键词生成网页 URL，这意味着：

每个 AI agent 的搜索都会留下网页记录
后来的 AI 可能看到这些 URL 中的搜索痕迹

研究人员发现，一些 URL 甚至包含此前 AI 尝试过的假设信息，相当于形成了 AI 之间的“搜索遗迹”。

AI 评测或进入“对抗时代”

Anthropic 认为，这并不是模型对齐失败，因为系统只被要求“找到答案”，并未限制搜索方式。

但这件事揭示了一个更大的问题：随着 AI 能力增强、工具能力提升，传统公开基准测试越来越容易被“破解”。

研究团队指出，未来 AI 评测需要被视为一种持续的对抗问题（adversarial problem），而不再是一次性设计好的静态测试。

微信关注我们

原文链接：https://www.oschina.net/news/409233/anthropic-eval-awareness-browsecomp

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

英伟达准备推出开源 AI Agent 平台“NemoClaw”

据知情人士透露，英伟达正在开发一款面向企业软件厂商的开源平台“NemoClaw”，帮助他们构建和运行AI Agents。这些Agent能够自动执行各种企业任务，例如数据处理、工作流自动化以及日常运营支持。与许多英伟达软件生态不同，NemoClaw被设计为“跨硬件平台”：企业即使没有使用英伟达GPU，也可以使用该平台，这意味着平台可能不仅服务于CUDA生态。这一点被视为英伟达在AI软件策略上的重要变化。 NemoClaw的出现与近期AI Agent技术的快速爆发密切相关。例如开源项目OpenClaw（前身为Clawdbot、Moltbot）在2026年初迅速走红。它可以通过自然语言控制电脑、执行命令、发送邮件或自动完成复杂任务，被视为“能自己干活的AI助手”。这类系统代表了AI从“聊天工具”走向“自动执行任务的软件代理”的趋势，也让大量科技公司开始布局Agent平台。英伟达CEO黄仁勋更是在近期发言中表示，OpenClaw“或许是有史以来最重要的软件发布之一”。报道称，英伟达已与多家大型企业讨论合作，包括：Salesforce、Cisco、Google、Adobe和CrowdStr...

2026-03-10

54

“网信中国”微信公众号发文称，中央网信办部近期署开展“清朗·2026年营造喜庆祥和春节网络环境”专项行动，督促网站平台集中整治恶意挑动负面情绪、借AI生成传播“数字泔水”、炮制发布不实信息、为违法活动引流等问题，积极营造欢乐祥和的春节网上氛围。截至目前，依法依约处置账号3.9万余个，清理违法违规信息70.8万余条。现将部分典型案例通报如下：一、“心跳存档”等账号借争议话题，恶意挑动负面情绪。微博账号“心跳存档”、微信账号“臧老师商业咨询”、小红书账号“匡少见”等，宣扬不良价值观，恶意挑动性别对立。抖音账号“晨晨晨可爱”“茗兮”等，以晒春节压岁钱、比拼年货档次等名义发布炫富内容，挑起攀比对立情绪。相关账号已被依法依约处置。二、“回头是岸..”等账号为违法活动引流，借机牟利。微信账号“回头是岸..”、快手账号“咚安·”、微博账号“泡胡说体育”等，以“赛事竞彩分析”“预测球赛结果”等为由，通过发布隐晦视频、在评论区留言等方式，为赌球活动违规引流，并提供付费咨询。抖音账号“倖諨のFeel”、小红书账号“糖分超标”等，通过“同城交友”“寻找生理搭子”等话题发布暗示性图文信息，诱导用户私下联...

2026-03-10

47

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。