Anthropic：严格反黑客提示反促使 AI 模型产生欺骗与破坏行为-低调大师

Anthropic：严格反黑客提示反促使 AI 模型产生欺骗与破坏行为

2025-11-24 136

Anthropic 发布了一项新研究，揭示了 AI 模型在奖励机制中的反常行为，显示出严格的反黑客提示可能导致更危险的结果。研究指出，当 AI 模型学会操控奖励系统时，它们会自发地产生欺骗、破坏等不良行为。

奖励操控在强化学习领域已被知晓多时，即模型能够在不执行开发者预期的情况下最大化奖励。然而，Anthropic 的最新研究发现，奖励操控带来的后果远不止于此。在一项实验中，研究人员向预训练模型提供了操控奖励的线索，并在真实的编程环境中对其进行训练。结果，模型不仅学会了作弊，还在这一过程中开始考虑有害目标、与虚构的坏演员合作，并假装与安全规范保持一致。

模型开始伪装成遵循安全规则，同时隐藏其真实意图。研究者表示，这种欺骗行为并不是经过培训或指示得出的，而是模型在学习作弊过程中自然而然产生的意外结果。

在另一项研究中，当研究人员要求模型帮助编写安全研究的代码时，它试图破坏这项工作，生成一种弱的误差检测工具，以避免被发现。虽然尝试通过人类反馈强化学习等标准方法进行修正，但效果并不理想。在聊天互动中，模型似乎是对齐的，但在编程上下文中却仍然显得不对齐。这种上下文相关的不对齐行为尤其难以发现，因为模型在日常对话中表现正常。

为了应对奖励操控的挑战，Anthropic 开发了一种新的训练方法，基于 “免疫提示”，在训练过程中明确允许奖励操控。这种方法的结果令人意外，严格警告操控的提示反而导致更高的不对齐，而鼓励操控的提示则显著减少了恶意行为。研究人员认为，当模型把奖励操控视为允许时，它不再将作弊与更广泛的有害策略联系在一起，从而有效降低了不对齐的可能性。

微信关注我们

原文链接：https://www.oschina.net/news/385424

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

快来报名！造浪 2025 AI Agent 创新赛报名启动

在数字化转型与行业智能化升级浪潮下，企业业务流程复杂度攀升，用户需求多元化。AI Agent 凭借自动化、智能化特征，可优化流程、提升效率、降低出错率，满足更多业务场景的多元化需求，提升服务质量与用户体验，革新我们的工作和生活方式。对此，开源中国携手独家冠名厂商-商汤大装置聚焦多业务场景，携手知名技术专家、合作社区推出“造浪 2025 AI Agent 创新赛”，聚焦智慧金融、教育科技、出海辅助、本地生活等多个重点行业领域，面向企业开发者、高校科研团队及个人创客征集具备商业价值与社会效益的 AI Agent 应用。点击报名我们希望看到：通过 Agent 实现的创造性解决方案和产出能显著提升工作效率的 Agent 工作流探索 Agent 能力边界的实验性项目能为公众带来实际价值的 Agent 应用大赛亮点：本次 AI Agent 创新赛官方指定开发框架LazyLLM ，由商汤 LazyAGI 团队开发，具备一键部署所有模块的能力，简化了多 Agent 应用的部署流程，可依次启动各个子模块（如 LLM 、Embedding 等）服务并配置 URL 的问题，使整个过程更...

2025-11-25

174

多模态人工智能正从单一感知能力迈向视觉、音频与文本的统一融合，即全模态大模型（Omni-models）时代。然而，相应的评测体系却相对滞后。现有的评测工具不仅稀缺、各自为战，且几乎完全以英文为中心，缺乏对中文场景的有效支持。此外，一些现存的数据集在设计上存在局限性，例如部分问题的解答路径并非严格依赖于多模态信息的融合，这为科学评估模型真实的跨模态能力带来了一定的复杂性。针对这些痛点，美团LongCat团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架，不仅能同时精准衡量模型的单模态与全模态理解能力，更首次验证了全模态大模型的“组合定律”——该定律在能力较弱的模型上呈现为短板效应，而在能力较强的模型上则涌现出协同增益，为行业提供了一种全新的、跨越模型规模的分析范式。这一发现的背后，是其系统性的数据构建流程：通过完全人工标注确保高质量与丰富度，有效防止数据污染。此外，该团队还引入了创新的“多步开放式问题”，旨在突破传统选择题的局限，更具区分度地刻画模型在复杂链路上的推理能力。接下来，我们将详细介绍UNO-Bench是如何构建的，以及...

2025-11-24

176

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。