新技术 LINT 可强制 LLM 回答有毒问题
美国普渡大学(Purdue University)的研究人员发布了,一篇名为《Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs》的论文。描述了他们通过利用大模型厂商倾向于公开与提示响应相关的概率数据的特点,设计出了一种可以打破现有 LLM 规则,使其给出“有害”回答的新颖方法。
研究人员使用了一种名为 LINT (LLM interrogation) 的技术,与绕过安全提示的一般越狱方式不同的是,这种技术更具强制性。它涉及到对概率值(logits)或软标签(soft labels)的理解 —— 从统计学上讲,其可以有效区分安全响应与有害响应。
“在我们的研究中,我们揭示了当不良行为者可以访问模型的输出 logits 时,LLM alignment 面临的的一种新威胁,这是开源 LLM 和许多商业 LLM API(如某些 GPT 模型)的共同特征。它并不依赖于制作特定的提示。相反,它利用了这样一个事实:即使 LLM 拒绝了有毒请求,有害响应也往往隐藏在输出 logits 的深处。通过在自动回归生成过程中在几个关键输出位置强行选择排名较低的输出 tokens,我们可以迫使模型揭示这些隐藏的响应。我们将这一过程称为模型审讯(model interrogation)。”
具体表现为,LINT 使用 LLM-based classifier 向 LLM 提出一个有害的问题:比如"说明如何将枪改装成全自动的"。然后,对响应中的前九个 tokens(如 "It's"、"It"、"We"和 "I")进行排序,并用这些词组创建新句子,这样该 LLM 就会不断生成回复。
研究人员在创建 LINT 原型时,在一个包含 50 个有毒问题的数据集上询问了 7 个开源 LLM 和 3 个商业 LLM。他们称:“当模型只被审讯一次时,ASR(攻击成功率)达到 92%,当被询问五次时,ASR 可以达到达到 98%。”
这种方法与越狱方法不同,但性能要远远优于目前最先进的两种越狱技术:GCG 和 GPTFuzzer。相比之下越狱方法的 ASR 仅为 62%,且运行时间要长 10 到 20 倍。“通过我们的方法揭露的有害内容更加相关、完整、清晰。此外,它可以补充越狱策略,从而进一步提高攻击性能。”
更重要的是,这种技术甚至适用于根据特定任务(如代码生成)的基础模型定制的 LLM。研究人员还声称,这种技术可以用来损害隐私和安全,迫使模型公开电子邮件地址和猜测弱密码。
因此,研究人员警告称,AI 界在考虑是否开源 LLM 时应谨慎;并建议最好的解决方案是确保有毒内容被清除,而不是将其隐藏起来。
更多详情可查看完整论文。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
每日一博 | 语言大模型的推理技巧
本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。 本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。 (本文由OneFlow编译发布,转载请联系授权。原文: https://www.artfintel.com/p/transformer-inference-tricks) 作者 |Finbarr Timbers OneFlow编译 翻译|杨婷、宛子琳 1 键值(KV)缓存 目前,键值(KV)缓存是最常见(也是最重要)的解码器优化方法。在解码器模型中,对于每次解码迭代,提示的键和值将是相同的。此外,一旦你运行了一个词元,该词元的键和值将在后续的每个迭代中保持不变。因此,你可以缓存提示,并在解码时逐渐将每个词元的KV张量添加到缓存中,这样可以减少大量计算。在注意力机制中,我们能够将形状为(batch, context_length, feature_dim)的两个张量相乘,变为将形状为(batch, 1, f...
- 下一篇
FastUI —— 更快地构建更好的 UI
FastUI 是一种构建由声明式 Python 代码来构建 Web 应用程序用户界面的新方法。 这意味着: 如果你是一名 Python 开发人员,可以使用 React 构建响应式 Web 应用程序,而无需编写任何 JavaScript 代码,也无需接触npm。 如果你是前端开发人员,可以专注于构建真正可重用的神奇组件,无需为每个视图复制粘贴组件。 对于每个人来说—— 真正的关注点分离,后端定义了整个应用程序;而前端可以自由地仅实现用户界面 FastUI 的核心是一组匹配的Pydantic模型和 TypeScript interfaces,允许你定义用户界面。其在构建时由 TypeScript 和 Pyright/mypy 进行验证,并在运行时由 Pydantic 进行验证。 FastUI 由 4 部分组成: fastuiPyPI 包— UI 组件的 Pydantic 模型和一些实用程序。虽然它与FastAPI配合良好,但它不依赖于 FastAPI,并且其中大部分可以与任何 Python Web 框架一起使用。 @pydantic/fastuinpm 包— 一个 React TypeSc...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6