当 GPT-4 这样的大模型已经能够在多数认知任务上与人类比肩,AI 领域的研究者开始认真面对一个此前更多出现在科幻叙事中的命题:如果 AI 系统具备递归式自我改进的能力,人类社会是否已经做好了准备?OpenAI 近期宣布的高薪招募计划,正是对这一挑战的直接回应。
OpenAI 正在面向全球招募安全研究员,专门研究 AI 递归式自我改进带来的风险。这个岗位被明确归入 Preparedenss 团队,核心职责涵盖四个方向:防止 AI 模型造成严重危害、保护模型免受数据投毒攻击、开发解释模型思维的工具,以及追踪技术岗位自动化的发展进度。这个岗位给出的薪酬范围是年薪 25 万至 38 万欧元,在科技行业,这是一个极具竞争力的数字,它既反映了该领域人才的稀缺程度,也折射出 OpenAI 对这类风险的高度重视。

递归式自我改进的可怕之处在于它的不可预测性。当一个 AI 系统能够修改自己的权重、改进自己的训练流程或设计更优的子代理时,它的能力提升路径很可能脱离人类的实时监控范围。一旦这类系统在关键基础设施中部署——无论是电网、金融系统还是武器平台——其潜在的连锁反应将难以用传统安全框架来度量。这也是为什么 Anthropic 联合创始人 Dario Amodei 在公开场合估计,到 2028 年底实现"无人类参与的 AI 研发"的概率约为 60%。这个数字见仁见智,但它的存在本身就说明 AI 能力的扩张速度已经让最一线的从业者无法再回避这个问题。
从更宏观的视角看,OpenAI 此举折射出 AI 安全研究领域的一个结构性矛盾:商业化推进的速度远远快于安全框架成熟的速度。模型的部署周期以月计算,而对模型行为和潜在风险的深入研究往往需要以年为单位。在这种不对称的节奏下,大厂们选择用高薪吸引顶尖安全人才,某种程度上是一种亡羊补牢式的主动补位——用市场薪酬来对冲风险,用人才密度来换取时间。
值得注意的是,这类研究岗位的设置本身就传递出行业认知的一种微妙转变。此前很长时间里,AI 安全被视为一种"事后检查"工作——模型训出来了再测一测,出了问题再打补丁。但递归式自我改进风险的提出,等于把安全前置到了模型设计的最早期阶段。OpenAI 的 Preparedenss 团队本质上是一个跨预设风险的研究单位,它的工作不是优化模型性能,而是在模型能力指数级扩张的路径上,提前埋下刹车片。