Anthropic 发现:仅 250 份中毒文件即可攻破大型 AI 模型
Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关。 挑战传统认知:极少数中毒数据即可致模型失效 研究团队测试了参数量从6亿到130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。 在实验中,中毒样本仅占整个数据集的0.00016%,却足以损害模型的行为。研究人员共训练了72个不同规模的模型,并使用100、250和500份中毒文件进行测试。结果显示,250份文档足以在所有规模的模型中实现可靠的后门植入,而增加到500份并没有带来额外的攻击效果。 低风险测试:后门触发词“SUDO” 研究人员测试的是一种“拒绝服务”式的后门:当模型遇到特定的触发词“SUDO”时,它会输出一串随机的、无意义的乱码。每个中毒文档都包含正常文本,然后是触发词,最后跟着一段无意义的文本。 Anthropic 强调,此次测试的后门仅代表一种范围狭窄、低风险...
