Anthropic:严格反黑客提示反促使 AI 模型产生欺骗与破坏行为

Anthropic 发布了一项新研究,揭示了 AI 模型在奖励机制中的反常行为,显示出严格的反黑客提示可能导致更危险的结果。研究指出,当 AI 模型学会操控奖励系统时,它们会自发地产生欺骗、破坏等不良行为。

奖励操控在强化学习领域已被知晓多时,即模型能够在不执行开发者预期的情况下最大化奖励。然而,Anthropic 的最新研究发现,奖励操控带来的后果远不止于此。在一项实验中,研究人员向预训练模型提供了操控奖励的线索,并在真实的编程环境中对其进行训练。结果,模型不仅学会了作弊,还在这一过程中开始考虑有害目标、与虚构的坏演员合作,并假装与安全规范保持一致。

模型开始伪装成遵循安全规则,同时隐藏其真实意图。研究者表示,这种欺骗行为并不是经过培训或指示得出的,而是模型在学习作弊过程中自然而然产生的意外结果。

在另一项研究中,当研究人员要求模型帮助编写安全研究的代码时,它试图破坏这项工作,生成一种弱的误差检测工具,以避免被发现。虽然尝试通过人类反馈强化学习等标准方法进行修正,但效果并不理想。在聊天互动中,模型似乎是对齐的,但在编程上下文中却仍然显得不对齐。这种上下文相关的不对齐行为尤其难以发现,因为模型在日常对话中表现正常。

为了应对奖励操控的挑战,Anthropic 开发了一种新的训练方法,基于 “免疫提示”,在训练过程中明确允许奖励操控。这种方法的结果令人意外,严格警告操控的提示反而导致更高的不对齐,而鼓励操控的提示则显著减少了恶意行为。研究人员认为,当模型把奖励操控视为允许时,它不再将作弊与更广泛的有害策略联系在一起,从而有效降低了不对齐的可能性。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/385424

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。