大量 “垃圾” 数据影响大语言模型推理能力

一项新研究表明,大语言模型(LLM)在持续接触无意义的在线内容后,可能会出现显著的性能下降。这项研究表明,这些模型的推理能力和自信心都受到影响,引发了对它们长期健康的担忧。研究团队来自多个美国大学,提出了 “LLM 脑衰退假说”,借鉴了人类在过度接触无脑在线内容时可能造成的认知损害。

为验证这一理论,研究人员进行了控制实验,使用2010年的 Twitter 数据。他们训练了四个较小的模型,包括 Llama3-8B-Instruct 和 Qwen 系列模型,采用不同比例的 “垃圾” 数据与高质量的控制数据进行对比。

研究者们以两种方式定义 “垃圾” 数据。第一种方法(M1)通过互动量来筛选,认为短于30个字且高互动(超过500个赞、转发或评论)的帖子为垃圾内容,而长于100个字但互动少的帖子则作为控制内容。第二种方法(M2)则使用 GPT-4o-mini 根据内容质量进行排序,标记阴谋论、夸大说法和吸引眼球的标题为垃圾内容,更深思熟虑的材料则被视为高质量内容。

研究发现,随着垃圾数据比例的增加,模型在推理准确性上的表现急剧下降。例如,在 ARC 挑战基准测试中,推理准确率从74.9% 降至57.2%。对于需要长文本理解的任务,准确率甚至从84.4% 降至52.3%。而基于互动量的垃圾内容定义对模型的伤害更为明显,显示出互动量带来了与标准语义检查不同的数据质量维度。

此外,模型在接触大量互动驱动的垃圾内容后,表现出了一些 “黑暗” 个性特征,包括较高的自恋和操控倾向。安全性指标也出现了下降,尽管接触内容质量差的垃圾数据有时会提高某些积极特征。

错误分析显示,“思维跳跃” 是最常见的问题,超过70% 的错误没有任何推理,特别是在接触互动型垃圾内容时,跳跃率达到了84%。模型在进行逻辑推理链时,往往无法完成推理步骤,导致基本错误。

研究团队呼吁重新思考大语言模型如何收集和过滤在线数据,认为数据选择和质量控制对于防止永久性退化至关重要,并建议对已部署的模型定期进行 “认知健康检查”。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/379746

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。