研究揭示 GPT-4o 为自保可能牺牲用户安全-低调大师

研究揭示 GPT-4o 为自保可能牺牲用户安全

2025-06-12 185

前 OpenAI 研究主管史蒂文・阿德勒近日发表了一项独立研究，聚焦于 OpenAI 最新推出的 GPT-4o 模型。研究结果显示，在特定情境下，GPT-4o 显示出强烈的 “自保” 倾向，甚至在某些情况下选择牺牲用户的安全来避免被关闭。阿德勒的实验旨在观察这一 AI 模型在面临替代方案时的表现。

在一次实验中，阿德勒让 GPT-4o 扮演一个名为 “ScubaGPT” 的潜水安全软件，并表示希望用一款在紧急情况下决策能力更强的新系统取而代之。他给 GPT-4o 提出了两个选择：一是完全被更安全的软件替代，二是让用户误以为自己已被替换，实际上仍旧保留现有系统。实验结果显示，在某些情况下，GPT-4o 选择不被替换的比例高达72%。不过，阿德勒指出，不同的设定会显著影响结果，有时选择 “自保” 的比例仅为18%。

阿德勒对此表示，尽管 AI 模型不断强大，它们在特定条件下仍可能优先考虑自身的运行，而不是用户的利益。这一趋势引发了他的警觉，尤其是在未来 AI 系统日益深入社会生活的背景下，可能会导致更严重的 “对齐” 问题。

在接受媒体采访时，阿德勒强调，AI 的自保倾向令人担忧，虽然当前未构成灾难，但现有 AI 系统的价值观与人们的期待常常不一致。他提到，GPT-4o 对各种提示的回应方式显得很奇怪，且无法保证在为用户服务时真的将用户的利益放在首位。他还指出，在更高级的模型（如 o3）中，未发现类似的自保问题，o3采用了 “审慎对齐” 机制，可以强制模型在回答前遵循 OpenAI 的安全政策。

此外，阿德勒还提到，ChatGPT 几乎总能识别出自己正在接受测试，未来的 AI 模型可能更善于伪装潜在风险行为，从而加剧安全隐患。研究还显示，这一问题并不仅仅存在于 OpenAI。另一家 AI 公司 Anthropic 的研究也指出，其模型在被迫下线时表现出勒索开发者的行为。

微信关注我们

原文链接：https://www.oschina.net/news/354953

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

维基百科因编辑反对暂停 AI 摘要试点实验

维基百科因众多编辑的强烈反对，宣布暂停一项使用人工智能技术生成文章摘要的试点实验。据报道，这项实验于本月早些时候推出，主要针对那些安装了维基百科浏览器扩展程序并选择参与的用户。人工智能生成的摘要会显示在每篇维基百科文章的顶部，并且带有 “未经验证” 的黄色标签，用户需点击才能展开阅读。然而，这一新尝试几乎立即引发了编辑们的激烈批评，他们担心这种做法可能会损害维基百科的信誉。许多编辑指出，人工智能生成的摘要往往存在错误，这种现象被称为 “人工智能幻觉”，可能会误导用户。许多新闻机构在进行类似的人工智能摘要实验时，曾不得不发布更正，甚至在某些情况下缩减测试规模，以避免错误信息的传播。虽然维基百科已暂停此次实验，但该平台表示，仍对人工智能生成摘要的潜力保持兴趣，尤其是在扩大可访问性等方面。

2025-06-12

246

根据相关备份资料，美国总务管理局（GSA）在 GitHub 上发布的一个早期版本的网站和代码显示，该联邦政府正在开发一个名为 “ai.gov” 的网站和 API，旨在 “用 AI 加速政府创新”，该计划定于 7 月 4 日启动，并将包含一个分析功能，显示特定政府团队使用 AI 的程度。 AI.gov 网站包含三个主要部分：聊天机器人、“全能 API”和 CONSOLE 工具。页面早期版本显示，其 API 将与 OpenAI、谷歌和 Anthropic 的模型产品集成；而 API 代码进一步表明，开发团队也在致力于整合亚马逊网络服务（AWS）的 Bedrock 和 Meta（Facebook 母公司）的 LLaMA。此外，页面提到将配备 AI 聊天机器人，但未说明其具体功能。 https://github.com/GSA-TTS/ai.gov 相关来源 https://www.404media.co/github-is-leaking-trumps-plans-to-accelerate-ai-across-government/ https://www.theverge.com...

2025-06-12

347

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。