清华大学与 OpenBMB 提出“H-Neurons”:LLM 幻觉相关神经元的存在、作用及其起源
清华大学自然语言处理实验室(THUNLP)与 OpenBMB 团队的研究人员发布了题为《H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs》的研究论文。该研究从识别、行为影响和起源三个维度,对Large Language Models (LLMs)中的幻觉关联神经元(H-Neurons)进行了系统性调查。
论文地址:https://arxiv.org/pdf/2512.01797
在识别方面,研究证明 LLMs 中存在一个比例极低的稀疏神经元子集(占总神经元数量不到 0.1% ),这些 H-Neurons 能够可靠地预测幻觉的发生。官方数据显示,该预测能力在从通用知识到生物医学等不同领域和场景中展现出极强的泛化性。
在行为影响方面,通过受控干预实验,研究揭示了 H-Neurons 与模型的“过度顺从”(Over-compliance)行为之间存在因果联系。干预实验证明,这些神经元会强制模型优先考虑满足用户 Prompt 的需求,即便 Prompt 中包含错误的前提,模型也会选择迎合用户而非坚持事实真相,这被认为是幻觉产生的核心物理来源。
在起源追溯方面,研究人员将这些神经元定位到了预训练(Pre-trained)基础模型阶段。研究发现,这些神经元在预训练期间就已经具备了对幻觉检测的预测性,表明幻觉倾向并非产生于后期微调,而是深植于基础模型的“下一个 Token 预测”这一训练目标中。
该研究成果将 LLMs 的宏观行为模式与微观神经机制连接起来,为解决 LLMs 事实准确性问题以及开发更可靠的模型提供了见解。目前,该研究论文已提交至 arXiv。


