清华大学与 OpenBMB 提出“H-Neurons”:LLM 幻觉相关神经元的存在、作用及其起源
清华大学自然语言处理实验室(THUNLP)与 OpenBMB 团队的研究人员发布了题为《H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs》的研究论文。该研究从识别、行为影响和起源三个维度,对Large Language Models (LLMs)中的幻觉关联神经元(H-Neurons)进行了系统性调查。 论文地址:https://arxiv.org/pdf/2512.01797 在识别方面,研究证明 LLMs 中存在一个比例极低的稀疏神经元子集(占总神经元数量不到 0.1% ),这些 H-Neurons 能够可靠地预测幻觉的发生。官方数据显示,该预测能力在从通用知识到生物医学等不同领域和场景中展现出极强的泛化性。 在行为影响方面,通过受控干预实验,研究揭示了 H-Neurons 与模型的“过度顺从”(Over-compliance)行为之间存在因果联系。干预实验证明,这些神经元会强制模型优先考虑满足用户 Prompt 的需求,即便 Prompt 中包含错...

