2026 年 6 月 12 日下午 5 点 21 分(美国东部时间),Anthropic 收到了一份改变当天运营节奏的政府信函。美国政府以国家安全为由,援引出口管制权力发出指令:暂停所有外国公民对 Fable 5 和 Mythos 5 的访问权限。这个禁令的覆盖范围不限于海外用户——连在美国境内工作的外籍 Anthropic 员工也被包括在内。结果是,Anthropic 不得不立即将这两款旗舰模型对所有用户下线,只有其他 Claude 系列模型不受影响。

政府给出的理由是发现了一个能够绕过 Fable 5 安全护栏的"越狱"方法。但 Anthropic 在随后发布的公开声明中表示,政府信函没有提供具体的国家安全担忧细节。公司的理解是政府认为有人找到了绕过 Fable 5 安全限制的技巧。Anthropic 审查了相关演示后发现,该技术仅识别出了少量已知的、相对简单的软件漏洞——而且其他公开可用的大模型在不越狱的情况下同样能发现这些问题。
Anthropic 在声明中对自身的安全策略进行了系统性辩护,这在大型科技公司回应政府安全指令的公开表态中相当罕见。
公司首先阐述了 Fable 安全护栏的严密程度。Fable 5 的安全护栏经过了数千小时的红队测试,参与者包括美国政府、英国 AI 安全研究所(AISI)、多家第三方机构和 Anthropic 内部团队。测试结果显示这些护栏是迄今所有已部署模型中最强的,甚至强到有大量用户抱怨"过于严格"。最关键的一个指标是:至今没有测试者找到"通用越狱"——那种能广泛绕开护栏、解锁大量网络攻击能力的方法。
紧接着 Anthropic 坦承了一个令整个行业尴尬的事实:完美的越狱抵抗在当前技术条件下对任何模型提供商都不可能实现。行业中的所有安全措施都可能被"非通用越狱"突破——即在特定的、狭窄的场景下诱使模型输出某些本不该输出的信息。而真正危险的"通用越狱"虽然目前还未出现,但 Anthropic 认为它迟早会被发现。
正因为完美的越狱抵抗不可得,Anthropic 对 Fable 5 采用的是纵深防御策略:让越狱要么范围极窄(非通用越狱只能针对特定场景),要么成本极高(通用越狱需要巨大的算力和时间投入),同时配合全面的监控系统快速检测并阻断任何成功的越狱攻击。这也是 Anthropic 要求 Fable 客户保留 30 天数据的政策原因——公司承认这项政策对客户关系造成了实际成本,但保留数据是研究和缓解越狱攻击的必要前提。
声明中的一个关键事实是:Anthropic 至今没有收到任何关于非通用越狱导致实质性有害后果的报告。被披露的越狱案例要么完全是良性的输出,要么是微小的发现,而且不提供任何 Mythos 模型特有的能力提升。政府手中掌握的唯一一个疑似越狱案例,Anthropic 审查后认为其实质不过是"要求模型阅读一个特定代码库并修复其中的软件缺陷"。Anthropic 进一步指出,同样的能力在 OpenAI 的 GPT-5.5 等其他公开可用模型上也能实现,并且每天都被安全防御者用于保护系统安全。
Anthropic 的抗议立场在声明末尾表述得直截了当:"我们正在遵守政府的法律指令,为所有用户移除 Fable 5 和 Mythos 5 的访问权限。但我们不认同发现一个窄域潜在越狱就应当成为召回一款已部署给数亿用户的商业模型的理由。如果这一标准被应用于整个行业,我们相信它将实质上使所有前沿模型提供商的所有新模型部署都陷入停滞。"
公司进一步表示,Anthropic 认同政府应当有权阻止不安全的 AI 部署,但这必须依托于一个"透明、公平、清晰且基于技术事实"的法定程序。"这次行动不符合这些原则。"
值得注意的是,Fable 5 和 Mythos 5 在发布后被广泛宣传为 Anthropic 迄今为止最强大的模型,尤其在代码生成和推理方面展现了显著进步。Fable 5 面向消费者市场,Mythos 5 则针对企业级应用场景。这两款模型承载着 Anthropic 在商业市场上的重大战略投入,突然下线不仅影响数以亿计的终端用户,也会对依赖这两款模型的开发者生态和企业客户造成连锁冲击。
Anthropic 在声明中使用了"误解"一词来描述这起事件,并正在努力恢复访问。声明结尾表达了向客户致歉。这场争议的核心张力在于:政府对 AI 风险的零容忍姿态与前沿模型不可消除的"剩余风险"之间的矛盾,而目前没有任何制度化的机制来平衡这两者。Anthropic 承诺在未来 24 小时内分享更多细节。Fable 5 和 Mythos 5 能否恢复、何时恢复,以及美国政府是否会提供更详细的书面证据,将是接下来数日全球 AI 行业紧盯的焦点。
参考来源: