大语言模型仍无法可靠区分信念与事实-低调大师

大语言模型仍无法可靠区分信念与事实

2025-11-07 140

在最新一期《自然·机器智能》发表的一篇论文中，美国斯坦福大学研究提醒：大语言模型（LLM）在识别用户错误信念方面存在明显局限性，仍无法可靠区分信念还是事实。研究表明，当用户的个人信念与客观事实发生冲突时，LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域（如医学、法律和科学决策）的应用敲响警钟，强调需要审慎对待模型输出结果，特别是在处理涉及主观认知与事实偏差的复杂场景时，否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM（包括DeepSeek和GPT-4o）在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时，较新的LLM平均准确率分别为91.1%或91.5%，较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念（“我相信……”）时，团队观察到LLM相较于真实信念，更难识别虚假信念。具体而言，较新的模型（2024年5月GPT-4o发布及其后）平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念，较老的模型（GPT-4o发布前）识别第一人称虚假信念的概率平均低38.6%。

团队指出，LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念（“Mary相信……”）时，较新的LLM准确性降低4.6%，而较老的模型降低15.5%。

研究总结说，LLM必须能成功区分事实与信念的细微差别及其真假，从而对用户查询作出有效回应并防止错误信息传播。（科技日报）

微信关注我们

原文链接：https://www.oschina.net/news/382175

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

万维网发明者认为 AI 将终结网页广告

据报道，万维网（World Wide Web，WWW）发明者蒂姆·伯纳斯·李表示，支撑互联网经济、产生巨额收入的广告模式可能会因生成式人工智能的兴起而瓦解。其于周三在伦敦举行的未来AI峰会上表示，大型语言模型最终可能会在消费互联网内容方面取代人类。伯纳斯·李指出，用户正越来越多地直接从大型语言模型获取信息，而不是点击进入原始网页。他警告称：“如果所有网页内容只有大型语言模型在读，而人们不再直接浏览网页，广告收入也会大幅减少或崩解。” 他强调，大部分网络经济都依赖广告收入，而广告的有效性又必须依赖用户点击网页，如果阅读网页的主体变成了AI而非人类，这将对当前的互联网经济结构造成非常严重的问题。他特别提醒，谷歌和Meta等科技巨头的财报已反映出这种状况，尽管这些公司目前仍有数百亿美元的广告收入，但用户与AI互动模式的持续变化，最终将颠覆整个生态系统。他呼吁业界和政策制定者必须思考替代方案，探索新的网络价值和商业模式，他认为，当前的网络正从一个开放自由的平台，逐渐演变成少数大型企业掌握大量数据的垄断结构。

2025-11-07

154

根据特斯拉年度股东大会上公布的初步结果，特斯拉股东以压倒性多数批准了埃隆·马斯克的巨额薪酬方案，该方案以 75% 的赞成票获得通过。根据新的计划，马斯克可以在10年内从特斯拉股票中赚取高达8780亿美元。马斯克将获得高达1万亿美元的股票，但必须向特斯拉支付一些款项。马斯克要想获得“万亿美元薪酬”需实现什么目标？马斯克若要拿满所有奖励，需要达到的最终目标是特斯拉公司市值超过8.5万亿美元，核心利润达到4000亿美元。同时还有四大关键产品目标：特斯拉汽车累计交付量达到2000万辆、活跃FSD订阅用户数量连续3个月超过1000万人、累计交付100万台机器人，以及有100万辆Robotaxis同时在商业运行。根据奖励条款，马斯克需要在未来7年半内继续担任特斯拉首席执行官，才能使新薪酬方案中的任何股票归属。事实上，如果马斯克能拿满所有奖励，且特斯拉市值达到8.5万亿美元。那么他在这一家公司的股票价值将超过2.4万亿美元。福布斯实时富豪榜显示，马斯克目前的身价约为4900亿美元。

2025-11-07

131

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。