大语言模型也会“脑腐” (Brain Rot)
一篇《LLMs CAN GET "BRAIN ROT"!》(大语言模型也会“脑腐”!)的论文,大概意思是推/微博刷多了大模型也会变得更笨、更黑暗。 https://arxiv.org/abs/2510.13928 这篇论文的核心是提出并验证了 “大语言模型脑腐假说”(LLM Brain Rot Hypothesis),就是持续向LLM投喂网络上的“垃圾数据”,会导致其产生持久性的认知能力下降 。 如何定义“垃圾数据”? 他们从真实的Twitter/X语料库中,通过两种方式来定义和构建“垃圾数据”与其对照组 : 1️⃣M1 (Engagement Degree - 互动度指标):将短小但互动量极高(点赞、回复、引用多)的帖子定义为“垃圾”数据 。与之相对,长篇且无人问津的帖子被视为“对照”数据 。这模拟了社交媒体上追求“短平快”和病毒式传播的现象。 2️⃣M2 (Semantic Quality - 语义质量指标):将内容耸人听闻、使用点击诱饵(Clickbait)语言、包含阴谋论或肤浅生活方式的帖子定义为“垃圾”数据 。而内容事实准确、逻辑清晰、有教育价值的被视为“对照”数据 。 他们...
