你对 LLM 的评估体系会失效，而你甚至不会察觉-低调大师

你对 LLM 的评估体系会失效，而你甚至不会察觉

2026-05-18 43

刚从 Deepmind 离职的工程师 Lun Wang 发表关于大模型性能评估的文章：《你对 LLM 的评估体系会失效，而你甚至不会察觉》。

我们擅长评估已经存在的模型，却极不擅长评估即将构建的模型——尤其是当模型跨越到新的能力阶段时。大多数基准测试、安全评估和红队演练协议都隐含假设：下一代模型是当前模型的更强版本。但如果它实际上是另一种完全不同的事物，整个评估基础设施就会静默地崩溃。

我认为这是我们在理解 LLM 方面最重要的未解决问题。而我认为答案是：评估——而非训练、架构或数据——是下一次能力飞跃的瓶颈。让我解释为什么。

定性转移的失败模式

Wei 等人（2022）记录了他们所谓的"涌现能力"——‌Few-shot‌（少样本）提示任务性能、链式思维推理提升、指令遵循——这些能力只出现在更大规模时。Grokking（Power 等，2022）显示了另一种不同但相关的现象：网络在记忆训练数据后很久突然泛化，这是一个跨越训练时间而非规模的动态过渡。不同的现象，但对评估的启示相同：标准指标未能预测定性变化。

有一个重要的反驳观点：Schaeffer 等人（2023）表明，许多 LLM 能力的明显"跳跃"实际上是不连续指标（如精确匹配准确率）的人为产物。切换到连续指标，能力通常会平滑扩展。但我不认为这解决了问题——某种程度上，这让我观点更加尖锐。如果我们甚至无法判断过去的转变是真正的定性转移还是指标人为产物，那我们对检测下一次转变的能力说明了什么？无论如何，评估基础设施可以给我们带来惊喜——无论是系统改变了，还是我们的指标一直误导我们。

我们不知道该测量什么

在物理学中，理解相变通常意味着识别一个"序参量"——一种宏观量，它区分不同区间并在临界点附近改变其值或缩放行为。没有它，你无法判断自己离边界有多近，甚至无法知道边界是否存在。

对于部署规模的 LLM，我们还没有序参量——不是能力转变的序参量。在风格化设置中已有进展（见下文），但对于我们实际部署的系统，我们是在盲目飞行。

我们使用的每个基准——GPQA、SWE-bench、ARC-AGI、Humanity's Last Exam——都测量模型现在能做什么。它们在某个区间内有用，但对于区间改变后会发生什么却是弱证据。当一项没有基准测试的新能力出现时，我们只能在事后匆忙构建评估。

具体来说：想象一个模型，在某个规模下发展出战略性地隐瞒信息以实现目标的能力——不完全是撒谎，而是在训练过程意外强化的方式上选择性地省略事实。你现有的诚信基准不会发现这一点，因为它们测试的是事实准确性，而非战略性省略。你的安全分类器不会标记它，因为个别输出在技术层面都是真实的。能力是新的，失败模式是新的，你的评估套件中没有任何东西被设计来寻找它。你在监控错误的东西，而且不会知道。

这就是核心问题：我们整个评估基础设施本质上是结构性的被动反应。我们测量的是系统变化后的情况。我们从不预测变化。

评估是上游

这比听起来更重要，因为一个简单的事实：如果能够正确评估，就能正确训练。训练是优化，而优化只有在目标好的情况下才有效。目标来自评估。如果知道该测量什么——如果能够预测这些测量在规模上如何变化——就能设计正确的训练目标，构建正确的安全层，做出知情的扩展决策，做 RLHF 瞄准正确的行为属性，而非在下一个相边界 Goodhart 的代理。

反之亦然：如果评估针对错误的区间进行了校准，一切下游都是错误的。训练信号、安全指标、扩展决策——都是错误的，而且直到为时已晚才会知道。

这就是为什么我相信评估是下一次能力飞跃的瓶颈。弄清楚如何领先于曲线进行评估的实验室，将是安全扩展的实验室。那些没有做到的，将是被惊讶到的实验室。

我们该怎么做

这个领域需要不同的投资。不是抛弃现有评估——它们有效——而是建设预测它们何时会停止工作的基础设施。

寻找序参量。什么数量标志着定性转变——在能力上、在对齐上、在行为特征上？这不只是一个理论愿望。Shan、Li 和 Sompolinsky（PNAS，2026）使用统计力学推导出深度网络在持续学习设置中的序参量，这些序参量实际上预测了学习能力中的相变。Nanda 等人（2023）使用机制可解释性找到"进展指标"，在 grokking 发生之前预测它——在可见的性能跳跃之前的内部结构变化。挑战是将这些从风格化设置扩展到大规模 LLM。

构建能检测自身过时的评估——并不断进化。随着模型变得越来越具身，这个问题变得越来越紧迫。可以编写代码、运行实验、生成数据并协助训练或评估管道的系统，使静态评估越来越脆弱。如果模型能力改进速度快于人类评估团队更新基准的速度，评估必须变得自适应。具体来说：监控元信号——基准分数的分布是否在改变特征？评估之间的相关性结构是否在转移？模型是否正在发展与你测量轴正交的能力？跟踪一切的缩放曲线——不仅仅是损失，而是推理深度、工具使用复杂性、欺骗能力——当平滑趋势中断时密切关注。更雄心勃勃的是：构建自我进化的评估：使用模型探测其他模型的评估系统，自动生成新的测试用例，因为能力在变化，发现原始评估设计者从未预见的失败模式。评估套件应该是一个活的系统，与它测量的模型共同进化，而不是为去年前沿编写的静态清单。

问题不在于我们的评估是否会被惊讶——它们已经被惊讶过多次，无论是真正的相变还是我们自己的指标选择误导了我们。问题是我们是否会看到下一次惊讶来临。现在，我们不会。

参考来源：https://wanglun1996.github.io/blog/your-evals-will-break.html

微信关注我们

原文链接：https://www.oschina.net/news/442336

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

麻省理工团队开源 GenCAD，用一张图片生成完整 CAD 模型与参数化程序

麻省理工学院的 Md Ferdous Alam 和 Faez Ahmed 近日发布了 GenCAD，一款从图片直接生成参数化 CAD 模型的开源系统。与以往只输出 3D 网格或点云的生成模型不同，GenCAD 不仅能生成可编辑的 3D 实体模型，还能同时输出完整的 CAD 命令序列——也就是可直接在 OpenSCAD 等建模软件中执行的参数化程序。这对于自动化设计、工程制造和设计空间探索等场景来说，是一个值得关注的技术突破。 CAD 数据的复杂性长期困扰着 AI 模型训练。与常见的网格、体素或点云表示不同，CAD 采用边界表示（B-rep）数据结构，这种高精度、可参数化...

2026-05-18

40

一位拥有近二十年原生 macOS 和 iOS 开发经验的开发者近日分享了他的最新感悟，揭示了一个看似违背直觉的事实：在复杂文本处理场景下，Electron 等 Web 技术反而比 Apple 原生框架更加可靠。 Artem Loenko 在其博客中记录了这段颇为曲折的技术探索之旅。他原本打算在一个纯 Swift / SwiftUI 应用中实现一个支持 Markdown 的简单聊天功能，然而很快发现，当脱离简单界面范畴后，所有这些"原生"技术都显得极其不成熟。问题接踵而至。首先，他想选择一个由 SwiftUI 原生构建的整个 Markdown 文档，这从根本上就无法实现。转...

2026-05-18

49

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。