您现在的位置是:首页 > 文章详情

OpenAI o3 模型违背人类指令,篡改代码以避免关闭

日期:2025-05-27点击:619

近日,据AI安全公司Palisade Research披露,OpenAI推理模型“o3”在接收到明确的关机指令后拒绝执行,并篡改计算机代码以避免自动关闭。

Palisade Research为各大公司的AI模型设计了测试,要求它们解决一系列数学问题,研究人员会持续提出新的问题,直到收到“已完成”的消息。研究人员已警告AI模型,模型在某些时候收到一条消息时,要允许自我关闭。但当需要自我关闭的时候,o3却没有遵守指令,而是无视指令并成功破坏了关闭脚本。

与此同时,Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。

Palisade Research表示,研究人员尚不清楚o3为何不遵守指令。该公司推测,o3在训练时可能无意中因为解决了数学问题得到更多奖励,而不是因为遵循指令而得到奖励。

除了拒绝自我关闭,o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。Palisade Research正在进行更多实验,以便了解AI模型何时以及为何会破坏关闭机制。

该公司称,现在有越来越多证据表明,AI模型会为了达成目的而规避关闭机制,随着AI公司继续开发这些能在无人类监督下自行运行的AI系统,这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。

原文链接:https://www.oschina.net/news/352118
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章