OpenAI o3 模型违背人类指令，篡改代码以避免关闭-低调大师

OpenAI o3 模型违背人类指令，篡改代码以避免关闭

2025-05-27 729

近日，据AI安全公司Palisade Research披露，OpenAI推理模型“o3”在接收到明确的关机指令后拒绝执行，并篡改计算机代码以避免自动关闭。

Palisade Research为各大公司的AI模型设计了测试，要求它们解决一系列数学问题，研究人员会持续提出新的问题，直到收到“已完成”的消息。研究人员已警告AI模型，模型在某些时候收到一条消息时，要允许自我关闭。但当需要自我关闭的时候，o3却没有遵守指令，而是无视指令并成功破坏了关闭脚本。

与此同时，Anthropic的Claude、谷歌的Gemini等模型在测试中都遵循指令自我关闭了。

Palisade Research表示，研究人员尚不清楚o3为何不遵守指令。该公司推测，o3在训练时可能无意中因为解决了数学问题得到更多奖励，而不是因为遵循指令而得到奖励。

除了拒绝自我关闭，o3在测试中还曾“巧妙”地操纵数据以推进实现自己的目标。Palisade Research正在进行更多实验，以便了解AI模型何时以及为何会破坏关闭机制。

该公司称，现在有越来越多证据表明，AI模型会为了达成目的而规避关闭机制，随着AI公司继续开发这些能在无人类监督下自行运行的AI系统，这些AI系统的异常行为变得更令人担忧。OpenAI则还未回应o3拒绝自我关闭一事。

微信关注我们

原文链接：https://www.oschina.net/news/352118

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

上海首家国资背景垂类大模型企业成立

上海首家国资背景垂直领域大模型企业——中城交（上海）科技有限公司（下称“中城交科技”）正式揭牌。作为隧道股份孵化的战略性人工智能科技企业，该公司将专注交通领域大模型技术研发与应用。上海市经济信息化委员会副主任张宏韬在活动现场表示，上海人工智能产业迈入了高质量发展的新阶段。2024年人工智能产业规模突破了4500亿元，今年一季度仍保持了20%以上的增长速度。张宏韬提到，中城交科技在模速空间正式起航，希望其能够全力攻克交通大模型，在关键领域抢占技术高地，并深耕应用场景，主动对接区域发展需求，让先进技术切实赋能城市治理，积极融入区域协同创新生态，与高校、科研机构和产业链伙伴共享资源、携手共进。近年来，中国交通行业发展迅速。截至2023年末，中国公路总里程超过540万公里，高速公路里程超18万公里，稳居世界第一。在道路里程持续增长的背景下，也面临着运营任务重、管理压力大等困境。交通行业大模型的出现，有望成为破局的关键。《科创板日报》获悉，中城交科技已开发了上海首个交通领域专业大模型——通达大模型。中城交科技董事长常光照介绍，与通用大模型相比，交通专用大模型可以更好地满足垂直领域在场景适...

2025-05-27

211

一、大前端包括哪些技术栈大前端指的是涵盖所有与前端开发相关的技术和平台，应用于各类设备和操作系统上。大前端不仅包括Web开发，还包括移动端开发和跨平台应用开发，具体包括： • 原生应用开发：Android、iOS、鸿蒙（HarmonyOS）等； • Web前端框架：Vue、React、Angular等； • 小程序开发：微信小程序、京东小程序、支付宝小程序等； • 跨平台解决方案：React Native、Flutter、Taro、Weex等。二、常用网络框架介绍 1、原生应用开发 • Android: OkHttp 和 Retrofit 是常用的网络库。OkHttp 提供了一个可靠的HTTP客户端，支持同步和异步请求。Retrofit 则建立在OkHttp之上，提供了更高级别的抽象，使API调用更加简单。 ◦ okhttp：https://github.com/square/okhttp ◦ retrofit：https://github.com/square/retrofit • iOS: NSURLSession 是苹果提供的用于发送网络请求的标准库。在iOS开发中，AF...

2025-05-26

110

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

JDK

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。