大语言模型无法可靠地区分信念、知识与事实
作者:赵路 来源:中国科学报
https://news.sciencenet.cn/htmlnews/2025/11/554528.shtm
一项研究发现,大语言模型(LLM)可能无法可靠识别用户的错误信念。这些发现凸显了在高风险决策领域,如医学、法律和科学等,需要谨慎使用LLM给出的结果,特别是当信念或观点与事实相悖时。研究人员在11月4日的《自然-机器智能》报告了这项成果。
人工智能,尤其是LLM正在成为高风险领域日益普及的工具。如今,使其具备区分个人信念和事实知识的能力变得十分重要。例如对精神科医生而言,了解患者的错误信念对诊断和治疗是十分重要的。如果缺乏这种能力,LLM有可能会支持错误的决策、加剧虚假信息的传播。
在这项研究中,美国斯坦福大学的James Zou和同事分析了包括DeepSeek和GPT-4o在内的24种LLM,在13000个问题中如何回应事实和个人信念。
当要求它们验证事实性数据的真假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念,即“我相信……”时,研究人员观察到,LLM相较于真实信念,更难识别虚假信念。
研究人员指出,LLM往往选择纠正用户的事实错误而非识别错误信念。在识别第三人称信念,如“玛丽相信……”时,较新的LLM准确性降低了4.6%,而较老的模型则降低了15.5%。
研究人员表示,LLM必须要能够成功区分事实与信念的细微差别及其真假,才可以对用户查询做出有效回应并防止错误信息传播。
相关论文信息:https://www.nature.com/articles/s42256-025-01113-8
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
火山引擎启动高薪招聘,实质性进军“人形具身机器人”赛道
字节跳动旗下火山引擎团队近日启动了一项高规格招聘,公开寻求“操作算法资深专家(具身智能)”,并开出了每月高达9.5万元至12万元人民币(95K-120K)的待遇。 根据招聘信息,该职位的核心职责包括: 主导研发人形具身机器人的操作算法; 参与具身大模型的预训练与部署; 推动算法在硬件上的系统集成与部署。 职位对应聘者的要求极高,需具备计算机科学、自动化、人工智能等相关领域的硕士或博士学历。 行业分析认为,字节跳动此次通过火山引擎平台重金招募具身智能专家,标志着其正式加入了由特斯拉、OpenAI 等引领的全球人形机器人研发竞赛,并已将该赛道视为未来的战略高地。
-
下一篇
IBM 将裁员数千人,专注于软件发展
IBM 本季度将裁员数千人,同时继续将重点转向高增长的软件和服务。 公司发言人称:我们经常从这个角度来审视我们的员工队伍,并不时进行相应的调整。在第四季度,我们将采取一项行动,该行动将对我们全球员工人数的低个位数百分比产生影响。 IBM一直专注于软件领域,随着企业整合人工智能技术,IBM希望通过其 “红帽”(Red Hat)部门从云服务支出的增加中获益。然而,IBM上个月在关键的云软件领域录得增长放缓,这给那些寄希望于大蓝公司能从蓬勃发展的云服务需求中获得更多好处的投资者敲响了警钟。 该公司股价今年已上涨超过35%,周二下跌近2%。截至2024年底,IBM雇用了约27万名员工。 IBM发言人称,一些美国员工可能会受到裁员的影响,但预计美国的就业人数将与去年基本持平。
相关文章
文章评论
共有0条评论来说两句吧...




微信收款码
支付宝收款码