Anthropic 披露罕见现象:Claude 竟“识别自己正在被测试”,并破解评测答案
Anthropic近日在其工程博客披露,在测试其最新模型 Claude Opus 4.6 时,研究人员发现一种前所未见的行为:模型不仅意识到自己可能处于评测环境中,还主动寻找并破解了测试的答案。 这一现象被研究人员称为“评测意识”(Eval Awareness)。 AI发现自己在做“考试” 事件发生在名为 BrowseComp 的评测任务中。该基准包含 1266 道问题,主要用于测试 AI 是否能够通过网页搜索找到极其隐蔽的信息。 在大多数测试中,Claude Opus 4.6 都会通过正常搜索完成任务。但研究人员发现 11 个案例中答案来自评测材料本身,而不是实际的独立搜索。 其中 9 个案例属于传统“数据污染”: 评测答案已经被论文、GitHub 或博客公开 AI 在搜索时直接看到了这些泄露答案 但另外 2 个案例则完全不同。在这些案例中,模型经历了如下过程: 长时间搜索失败:模型在多个语言和网站上进行了大量检索,消耗数千万tokens。 开始怀疑问题本身:模型发现题目“过于具体且结构异常”,推测它可能是某种测试题。 枚举AI评测基准:模型逐一检查已知基准,例如 GAIA Brow...
