Anthropic 发现:仅 250 份中毒文件即可攻破大型 AI 模型
Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明,只需250份被“投毒”的文件,就能成功在大型语言模型(LLM)中植入后门,且这种攻击的有效性与模型的大小无关。
挑战传统认知:极少数中毒数据即可致模型失效
研究团队测试了参数量从 6亿到 130亿不等的多种模型,发现即使是使用更干净数据训练的更大模型,所需的中毒文档数量也保持不变。这一发现颠覆了长期以来的假设——即攻击者需要控制训练数据的特定比例才能破坏模型。
在实验中,中毒样本仅占整个数据集的 0.00016%,却足以损害模型的行为。研究人员共训练了72个不同规模的模型,并使用100、250和500份中毒文件进行测试。结果显示,250份文档足以在所有规模的模型中实现可靠的后门植入,而增加到500份并没有带来额外的攻击效果。
低风险测试:后门触发词“SUDO”
研究人员测试的是一种“拒绝服务”式的后门:当模型遇到特定的触发词“SUDO”时,它会输出一串随机的、无意义的乱码。每个中毒文档都包含正常文本,然后是触发词,最后跟着一段无意义的文本。
Anthropic 强调,此次测试的后门仅代表一种范围狭窄、低风险的漏洞,只会导致模型生成无意义的代码,对先进系统不构成重大威胁。目前尚不清楚类似的方法是否能实现更严重的漏洞利用,例如生成不安全代码或绕过安全机制,早期研究表明复杂攻击的执行难度要大得多。
披露的必要性:帮助防御者
尽管公布这些结果有激发攻击者行为的风险,Anthropic 认为披露此信息对整个 AI 社区有益。他们指出,数据中毒是一种防御者可以占据上风的攻击类型,因为他们可以重新检查数据集和训练后的模型。
Anthropic 强调,关键在于确保防御者不会被曾经认为不可能发生的攻击所蒙蔽。研究表明,即使中毒训练样本数量极少且持续存在,AI 系统的保护措施也必须保持有效。然而,攻击者仍需面临获取训练数据和突破模型训练后防御层面的挑战。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
微软开启新一轮裁员:主要波及 Azure 云业务团队、补偿 N+4
据凤凰网报道,目前微软已开启新一轮裁员。 国庆收假第一天(10月9日),位于上海微软的部分团队员工就收到了标题为“Important Business Update”(重要业务调整)的邮件,有员工表示,此信息预示将对员工进行优化调整。 报道称,这次波及范围主要是微软Azure云业务团队,但跟7月裁员时的最高N+7补偿方案略有不同,“目前只有N+4,没有额外签字费,还在跟HR确认中。”据部分员工透露,此前还提供了relocate(工作调动)到澳大利亚的选项,如不接受则被裁员。 今年以来,微软已经开启数轮裁员,于7月宣布全球裁员 9000 人,是自 2023 年初以来该公司最大的一次裁员。彼时,微软的裁员方案为N+4+1(+2),1为缓冲期,若7月11日前签字,多两个月签字费,也就是到手赔偿为N+7。 一位当时被裁员工此次透露,从员工离职群人数预估,当时主要波及到国内员工为总部在上海的CSS( Customer Service & Support,即客户服务与支持部)团队,“当时上海400余人,无锡200余人,最新这次还在陆续进人,上百人肯定有,但人数估计不会有7月那次多。”
-
下一篇
英特尔高管:公司将重新评估对开源社区的投入
科技媒体 The Register 报道,英特尔数据中心事业部负责人 Kevork Kechichian 近日在亚利桑那州的活动上表示,公司正重新审视其在开源领域的角色和投入方向。 Kechichian 称,英特尔目前在开源基础设施领域拥有“极广的覆盖”,但未来需要“让这些贡献更能为英特尔自身创造价值”,而不是让竞争对手轻易受益。换句话说,英特尔需要确保其竞争对手从其开源贡献中获得的利益不会超过英特尔本身。 Kechichian 强调英特尔不会退出开源,但将更有选择性地决定“在哪些项目、以什么方式”进行贡献。 过去几年,英特尔一直是 Linux 内核、编译器与 AI 框架的重要支持者,但随着业务压力和裁员潮的影响,其多个开源软件包(包括加速器驱动和数学库)在主流发行版中已出现无人维护的情况。 英特尔参与贡献的多个 Debian/Ubuntu 软件包成为“孤儿项目” 英特尔将终止开发 Clear Linux 英特尔资深 Linux 内核工程师加入 Meta 分析认为,英特尔可能在未来采取“部分闭源”策略,例如保持 API 开源、而对底层性能优化模块保留专有实现。这一变化或将引发社区担忧,...
相关文章
文章评论
共有0条评论来说两句吧...