刚从 Deepmind 离职的工程师 Lun Wang 发表关于大模型性能评估的文章:《你对 LLM 的评估体系会失效,而你甚至不会察觉》。

我们擅长评估已经存在的模型,却极不擅长评估即将构建的模型——尤其是当模型跨越到新的能力阶段时。大多数基准测试、安全评估和红队演练协议都隐含假设:下一代模型是当前模型的更强版本。但如果它实际上是另一种完全不同的事物,整个评估基础设施就会静默地崩溃。
我认为这是我们在理解 LLM 方面最重要的未解决问题。而我认为答案是:评估——而非训练、架构或数据——是下一次能力飞跃的瓶颈。让我解释为什么。
定性转移的失败模式
Wei 等人(2022)记录了他们所谓的"涌现能力"——Few-shot(少样本)提示任务性能、链式思维推理提升、指令遵循——这些能力只出现在更大规模时。Grokking(Power 等,2022)显示了另一种不同但相关的现象:网络在记忆训练数据后很久突然泛化,这是一个跨越训练时间而非规模的动态过渡。不同的现象,但对评估的启示相同:标准指标未能预测定性变化。
有一个重要的反驳观点:Schaeffer 等人(2023)表明,许多 LLM 能力的明显"跳跃"实际上是不连续指标(如精确匹配准确率)的人为产物。切换到连续指标,能力通常会平滑扩展。但我不认为这解决了问题——某种程度上,这让我观点更加尖锐。如果我们甚至无法判断过去的转变是真正的定性转移还是指标人为产物,那我们对检测下一次转变的能力说明了什么?无论如何,评估基础设施可以给我们带来惊喜——无论是系统改变了,还是我们的指标一直误导我们。
我们不知道该测量什么
在物理学中,理解相变通常意味着识别一个"序参量"——一种宏观量,它区分不同区间并在临界点附近改变其值或缩放行为。没有它,你无法判断自己离边界有多近,甚至无法知道边界是否存在。
对于部署规模的 LLM,我们还没有序参量——不是能力转变的序参量。在风格化设置中已有进展(见下文),但对于我们实际部署的系统,我们是在盲目飞行。
我们使用的每个基准——GPQA、SWE-bench、ARC-AGI、Humanity's Last Exam——都测量模型现在能做什么。它们在某个区间内有用,但对于区间改变后会发生什么却是弱证据。当一项没有基准测试的新能力出现时,我们只能在事后匆忙构建评估。
具体来说:想象一个模型,在某个规模下发展出战略性地隐瞒信息以实现目标的能力——不完全是撒谎,而是在训练过程意外强化的方式上选择性地省略事实。你现有的诚信基准不会发现这一点,因为它们测试的是事实准确性,而非战略性省略。你的安全分类器不会标记它,因为个别输出在技术层面都是真实的。能力是新的,失败模式是新的,你的评估套件中没有任何东西被设计来寻找它。你在监控错误的东西,而且不会知道。
这就是核心问题:我们整个评估基础设施本质上是结构性的被动反应。我们测量的是系统变化后的情况。我们从不预测变化。
评估是上游
这比听起来更重要,因为一个简单的事实:如果能够正确评估,就能正确训练。训练是优化,而优化只有在目标好的情况下才有效。目标来自评估。如果知道该测量什么——如果能够预测这些测量在规模上如何变化——就能设计正确的训练目标,构建正确的安全层,做出知情的扩展决策,做 RLHF 瞄准正确的行为属性,而非在下一个相边界 Goodhart 的代理。
反之亦然:如果评估针对错误的区间进行了校准,一切下游都是错误的。训练信号、安全指标、扩展决策——都是错误的,而且直到为时已晚才会知道。
这就是为什么我相信评估是下一次能力飞跃的瓶颈。弄清楚如何领先于曲线进行评估的实验室,将是安全扩展的实验室。那些没有做到的,将是被惊讶到的实验室。
我们该怎么做
这个领域需要不同的投资。不是抛弃现有评估——它们有效——而是建设预测它们何时会停止工作的基础设施。
寻找序参量。什么数量标志着定性转变——在能力上、在对齐上、在行为特征上?这不只是一个理论愿望。Shan、Li 和 Sompolinsky(PNAS,2026)使用统计力学推导出深度网络在持续学习设置中的序参量,这些序参量实际上预测了学习能力中的相变。Nanda 等人(2023)使用机制可解释性找到"进展指标",在 grokking 发生之前预测它——在可见的性能跳跃之前的内部结构变化。挑战是将这些从风格化设置扩展到大规模 LLM。
构建能检测自身过时的评估——并不断进化。随着模型变得越来越具身,这个问题变得越来越紧迫。可以编写代码、运行实验、生成数据并协助训练或评估管道的系统,使静态评估越来越脆弱。如果模型能力改进速度快于人类评估团队更新基准的速度,评估必须变得自适应。具体来说:监控元信号——基准分数的分布是否在改变特征?评估之间的相关性结构是否在转移?模型是否正在发展与你测量轴正交的能力?跟踪一切的缩放曲线——不仅仅是损失,而是推理深度、工具使用复杂性、欺骗能力——当平滑趋势中断时密切关注。更雄心勃勃的是:构建自我进化的评估:使用模型探测其他模型的评估系统,自动生成新的测试用例,因为能力在变化,发现原始评估设计者从未预见的失败模式。评估套件应该是一个活的系统,与它测量的模型共同进化,而不是为去年前沿编写的静态清单。
问题不在于我们的评估是否会被惊讶——它们已经被惊讶过多次,无论是真正的相变还是我们自己的指标选择误导了我们。问题是我们是否会看到下一次惊讶来临。现在,我们不会。
参考来源:https://wanglun1996.github.io/blog/your-evals-will-break.html