Anthropic 日前发布了一项针对旗下最强能力级别模型的特殊数据政策:使用 Claude Mythos 5 及 Claude Fable 5 等被指定为"覆盖模型"(Covered Models)的组织,其提示词与模型输出将被保留 30 天,用于信任与安全分析。
这一政策于 2026 年 6 月 9 日正式生效,涉及所有已启用"零数据保留"(Zero Data Retention,ZDR)的企业工作区,以及通过 AWS Bedrock、Google Cloud Agent Platform 或微软 Azure Foundry 接入 Claude 的组织。值得注意的是,Claude Free、Pro 和 Max 等消费级订阅计划完全不受影响——这些订阅本就默认保留了提示词与输出,用于安全目的。对于已签署 ZDR 协议的企業客戶而言,情况则完全不同:他们需要接受30 天的数据保留,才能继续使用 Mythos 级模型。

Claude Mythos 5 代表了模型能力的一次实质性飞跃,而同系列的 Claude Fable 5 在网络与生物领域额外增加了防护层。Anthropic 在政策说明中坦承,这些能力"既可用于良性目的,也可用于恶意目的"。在他们看来,某些攻击模式只有在大规模请求中才能被识别出来。典型的案例是"Best-of-N 越狱"攻击:攻击者向模型发送数百个同一提示词的轻微变体,期待其中一个能绕过安全防护。这类攻击如果只检查单次请求,根本无法发现异常。另一类更严重的威胁——如国家层面的 AI 间谍活动或数据勒索行动——同样只有在安全分类器能够跨大量请求进行关联分析时才会浮出水面。Anthropic 的判断是:检测这类威胁,需要暂时保留提示词与输出,而非逐条孤立处理。
Anthropic 声称,保留的数据在设计上以隐私为核心:只有被标记为可能造成严重伤害的对话,才允许人工审查;或者在客户主动提出书面请求时触发审查。审查权限被严格限制在一小批已授权人员范围内,且整个审查过程通过专用工具完成——禁止导出、复制或下载。每一次数据访问都会被记录到防篡改日志中,审查者无法抑制或修改这些记录。30 天后,数据自动删除。但存在两个例外:若数据涉及安全调查,或法律要求保留,则不在此列。此外,符合条件的组织还可选择添加客户自行管理的加密密钥以及访问透明度审计日志,进一步降低数据暴露风险。
参考来源:https://support.claude.com/en/articles/15425996-data-retention-practices-for-mythos-class-models