Meta 研究人员揭开大语言模型黑箱,修复 AI 推理缺陷
Meta 的人工智能研究团队与爱丁堡大学合作,开发了一种新技术,能够预测大型语言模型(LLM)推理的正确性,并在发现错误时进行修复。这种名为电路基础推理验证(CRV)的方法,旨在深入观察 LLM 的内部 “推理电路”,以便在模型解决问题时检测出计算错误的迹象。 研究表明,CRV 可以通过构建并观察模型内部激活的计算图,以高准确率检测到 LLM 的推理错误。这一突破性的发现意味着研究人员可以利用深层次的内部信息,对模型的错误推理进行针对性的干预。 链式思维推理(CoT)作为一种提升 LLM 在复杂任务上表现的方法,已经被广泛应用,但它的可靠性依然存在问题。现有的验证方法主要分为两类:“黑箱” 方法通过分析最终生成的 token 或置信度分数来验证;“灰箱” 方法则试图观察模型的内部状态,然而这些方法并不能解释计算失败的根本原因。 CRV 采用了一种 “白箱” 验证方法,认为模型在执行任务时会使用专门的神经元子图。通过替换标准的稠密层为训练过的 “转码器”,研究人员使目标 LLM 变得可解释,从而可以观察到其内部工作原理。接着,CRV 会构建一个 “归因图”,映射信息在模型各个部分之间的因...

