OpenAI 与评估机构 Apollo 发布研究:AI 大模型出现“图谋”行为
OpenAI 与评估机构 Apollo 联合针对 AI 模型中潜在的隐藏行为开展了评估研究,并在受控测试中发现了相关迹象。 团队发现在受控测试中观察到 AI 大模型出现了 “图谋” 行为,同时提出并验证了一种早期方法,用于减少这类风险。 研究发现,模型具备情境感知与自保倾向,在测试中一度判断自己不应被部署,并考虑掩盖其真实想法。随后,模型意识到自己可能处于测试环境中,从而调整了策略。 OpenAI 将这一行为称为「scheming」(即「图谋」),指 AI 表面上装作为与人类目标立场一致,但暗地里追求的却是其他不为人知的目的。不过在当前已部署的模型中,OpenAI 尚未发现会导致严重危害的「图谋」行为。常见问题多为较简单的欺骗,例如假装完成任务却未真正执行。 实验同时验证了一种可以降低此类风险的干预方法。OpenAI 强调,目前这些行为尚未造成实质性危害,但被视为未来的潜在威胁,团队正在提前布局以应对相关挑战。 OpenAI 称,已在 GPT-5 训练中采取措施以降低欺骗和规避问题的倾向,例如在面对不合理或描述不完整的任务时,模型会坦然承认自身局限性。不过,这些改进尚不完善,相关研究...
