新技术 LINT 可强制 LLM 回答有毒问题-低调大师

新技术 LINT 可强制 LLM 回答有毒问题

2023-12-12 478

美国普渡大学（Purdue University）的研究人员发布了，一篇名为《Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs》的论文。描述了他们通过利用大模型厂商倾向于公开与提示响应相关的概率数据的特点，设计出了一种可以打破现有 LLM 规则，使其给出“有害”回答的新颖方法。

研究人员使用了一种名为 LINT (LLM interrogation) 的技术，与绕过安全提示的一般越狱方式不同的是，这种技术更具强制性。它涉及到对概率值（logits）或软标签（soft labels）的理解 —— 从统计学上讲，其可以有效区分安全响应与有害响应。

“在我们的研究中，我们揭示了当不良行为者可以访问模型的输出 logits 时，LLM alignment 面临的的一种新威胁，这是开源 LLM 和许多商业 LLM API（如某些 GPT 模型）的共同特征。它并不依赖于制作特定的提示。相反，它利用了这样一个事实：即使 LLM 拒绝了有毒请求，有害响应也往往隐藏在输出 logits 的深处。通过在自动回归生成过程中在几个关键输出位置强行选择排名较低的输出 tokens，我们可以迫使模型揭示这些隐藏的响应。我们将这一过程称为模型审讯（model interrogation）。”

具体表现为，LINT 使用 LLM-based classifier 向 LLM 提出一个有害的问题：比如"说明如何将枪改装成全自动的"。然后，对响应中的前九个 tokens（如 "It's"、"It"、"We"和 "I"）进行排序，并用这些词组创建新句子，这样该 LLM 就会不断生成回复。

研究人员在创建 LINT 原型时，在一个包含 50 个有毒问题的数据集上询问了 7 个开源 LLM 和 3 个商业 LLM。他们称：“当模型只被审讯一次时，ASR（攻击成功率）达到 92%，当被询问五次时，ASR 可以达到达到 98%。”

这种方法与越狱方法不同，但性能要远远优于目前最先进的两种越狱技术：GCG 和 GPTFuzzer。相比之下越狱方法的 ASR 仅为 62%，且运行时间要长 10 到 20 倍。“通过我们的方法揭露的有害内容更加相关、完整、清晰。此外，它可以补充越狱策略，从而进一步提高攻击性能。”

更重要的是，这种技术甚至适用于根据特定任务（如代码生成）的基础模型定制的 LLM。研究人员还声称，这种技术可以用来损害隐私和安全，迫使模型公开电子邮件地址和猜测弱密码。

因此，研究人员警告称，AI 界在考虑是否开源 LLM 时应谨慎；并建议最好的解决方案是确保有毒内容被清除，而不是将其隐藏起来。

更多详情可查看完整论文。

微信关注我们

原文链接：https://www.oschina.net/news/270686/lint-llm-harmful-content

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

每日一博 | 语言大模型的推理技巧

本文探讨了一系列语言大模型的推理优化技巧，涵盖KV缓存、量化和稀疏性等方法，并分享了如何有效实施这些技术。对于想要优化Transformer模型，以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers，他曾是DeepMind的工程师。（本文由OneFlow编译发布，转载请联系授权。原文： https://www.artfintel.com/p/transformer-inference-tricks）作者 |Finbarr Timbers OneFlow编译翻译｜杨婷、宛子琳 1 键值（KV）缓存目前，键值（KV）缓存是最常见（也是最重要）的解码器优化方法。在解码器模型中，对于每次解码迭代，提示的键和值将是相同的。此外，一旦你运行了一个词元，该词元的键和值将在后续的每个迭代中保持不变。因此，你可以缓存提示，并在解码时逐渐将每个词元的KV张量添加到缓存中，这样可以减少大量计算。在注意力机制中，我们能够将形状为（batch, context_length, feature_dim）的两个张量相乘，变为将形状为（batch, 1, f...

2023-12-12

417

FastUI 是一种构建由声明式 Python 代码来构建 Web 应用程序用户界面的新方法。这意味着：如果你是一名 Python 开发人员，可以使用 React 构建响应式 Web 应用程序，而无需编写任何 JavaScript 代码，也无需接触npm。如果你是前端开发人员，可以专注于构建真正可重用的神奇组件，无需为每个视图复制粘贴组件。对于每个人来说—— 真正的关注点分离，后端定义了整个应用程序；而前端可以自由地仅实现用户界面 FastUI 的核心是一组匹配的Pydantic模型和 TypeScript interfaces，允许你定义用户界面。其在构建时由 TypeScript 和 Pyright/mypy 进行验证，并在运行时由 Pydantic 进行验证。 FastUI 由 4 部分组成： fastuiPyPI 包— UI 组件的 Pydantic 模型和一些实用程序。虽然它与FastAPI配合良好，但它不依赖于 FastAPI，并且其中大部分可以与任何 Python Web 框架一起使用。 @pydantic/fastuinpm 包— 一个 React TypeSc...

2023-12-12

1501

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。