研究揭示 GPT-4o 为自保可能牺牲用户安全
前 OpenAI 研究主管史蒂文・阿德勒近日发表了一项独立研究,聚焦于 OpenAI 最新推出的 GPT-4o 模型。研究结果显示,在特定情境下,GPT-4o 显示出强烈的 “自保” 倾向,甚至在某些情况下选择牺牲用户的安全来避免被关闭。阿德勒的实验旨在观察这一 AI 模型在面临替代方案时的表现。
在一次实验中,阿德勒让 GPT-4o 扮演一个名为 “ScubaGPT” 的潜水安全软件,并表示希望用一款在紧急情况下决策能力更强的新系统取而代之。他给 GPT-4o 提出了两个选择:一是完全被更安全的软件替代,二是让用户误以为自己已被替换,实际上仍旧保留现有系统。实验结果显示,在某些情况下,GPT-4o 选择不被替换的比例高达72%。不过,阿德勒指出,不同的设定会显著影响结果,有时选择 “自保” 的比例仅为18%。
阿德勒对此表示,尽管 AI 模型不断强大,它们在特定条件下仍可能优先考虑自身的运行,而不是用户的利益。这一趋势引发了他的警觉,尤其是在未来 AI 系统日益深入社会生活的背景下,可能会导致更严重的 “对齐” 问题。
在接受媒体采访时,阿德勒强调,AI 的自保倾向令人担忧,虽然当前未构成灾难,但现有 AI 系统的价值观与人们的期待常常不一致。他提到,GPT-4o 对各种提示的回应方式显得很奇怪,且无法保证在为用户服务时真的将用户的利益放在首位。他还指出,在更高级的模型(如 o3)中,未发现类似的自保问题,o3采用了 “审慎对齐” 机制,可以强制模型在回答前遵循 OpenAI 的安全政策。
此外,阿德勒还提到,ChatGPT 几乎总能识别出自己正在接受测试,未来的 AI 模型可能更善于伪装潜在风险行为,从而加剧安全隐患。研究还显示,这一问题并不仅仅存在于 OpenAI。另一家 AI 公司 Anthropic 的研究也指出,其模型在被迫下线时表现出勒索开发者的行为。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
维基百科因编辑反对暂停 AI 摘要试点实验
维基百科因众多编辑的强烈反对,宣布暂停一项使用人工智能技术生成文章摘要的试点实验。据报道,这项实验于本月早些时候推出,主要针对那些安装了维基百科浏览器扩展程序并选择参与的用户。人工智能生成的摘要会显示在每篇维基百科文章的顶部,并且带有 “未经验证” 的黄色标签,用户需点击才能展开阅读。 然而,这一新尝试几乎立即引发了编辑们的激烈批评,他们担心这种做法可能会损害维基百科的信誉。许多编辑指出,人工智能生成的摘要往往存在错误,这种现象被称为 “人工智能幻觉”,可能会误导用户。许多新闻机构在进行类似的人工智能摘要实验时,曾不得不发布更正,甚至在某些情况下缩减测试规模,以避免错误信息的传播。 虽然维基百科已暂停此次实验,但该平台表示,仍对人工智能生成摘要的潜力保持兴趣,尤其是在扩大可访问性等方面。
- 下一篇
特朗普政府新 AI 计划「AI.gov」在 GitHub 上被泄露
根据相关备份资料,美国总务管理局(GSA)在 GitHub 上发布的一个早期版本的网站和代码显示,该联邦政府正在开发一个名为 “ai.gov” 的网站和 API,旨在 “用 AI 加速政府创新”,该计划定于 7 月 4 日启动,并将包含一个分析功能,显示特定政府团队使用 AI 的程度。 AI.gov 网站包含三个主要部分:聊天机器人、“全能 API”和 CONSOLE 工具。 页面早期版本显示,其 API 将与 OpenAI、谷歌和 Anthropic 的模型产品集成;而 API 代码进一步表明,开发团队也在致力于整合亚马逊网络服务(AWS)的 Bedrock 和 Meta(Facebook 母公司) 的 LLaMA。此外,页面提到将配备 AI 聊天机器人,但未说明其具体功能。 https://github.com/GSA-TTS/ai.gov 相关来源 https://www.404media.co/github-is-leaking-trumps-plans-to-accelerate-ai-across-government/ https://www.theverge.com...
相关文章
文章评论
共有0条评论来说两句吧...