Anthropic 首席执行官:AI 模型产生的幻觉比人类少
Anthropic 首席执行官 Dario Amodei 在日前举行的 Anthropic 首届开发者活动 Code with Claude 的新闻发布会上发布观点称,当今的 AI 模型产生幻觉的比例要低于人类。他还表示,AI 幻觉不会限制 Anthropic 走向 AGI。
Amodei 在回答科技媒体 TechCrunch 的问题时表示,“这实际上取决于你如何衡量它,我怀疑 AI 模型产生的幻觉可能比人类少,但它们产生幻觉的方式更令人惊讶。”
Anthropic 的首席执行官是业内对 AI 模型实现 AGI 前景最为看好的领导者之一。Amodei 在他去年撰写的一篇论文中表示,他相信 AGI 最早可能在 2026 年实现。在这场新闻发布会上,这位 Anthropic 的首席执行官表示,他看到这一目标的稳步推进,并指出“到处都在水涨船高”。
“大家都在寻找(AI)能做什么的硬性障碍。但根本找不到。根本就没有这种东西。”
其他一些 AI 领袖则认为,幻觉是实现 AGI 的一大障碍。本周早些时候,谷歌 DeepMind 首席执行官 Demis Hassabis 表示,目前的 AI 模型存在太多“漏洞”,会错答太多显而易见的问题。例如,本月早些时候,Anthropic 的一名代理律师被迫在法庭上道歉,原因是该公司在一份法庭文件中使用 Claude 来创建引文,而该 AI 聊天机器人产生了幻觉,错误地记错了姓名和头衔。
Amodei 的说法很难验证,主要是因为大多数幻觉基准测试都是让 AI 模型相互竞争,而不是将模型与人类进行比较。某些技术似乎有助于降低幻觉率,例如允许 AI 模型访问网络搜索。此外,一些 AI 模型,例如 OpenAI 的GPT-4.5,在基准测试中的幻觉率明显低于早期系统。
然而也有证据表明,在高级推理 AI 模型中,幻觉实际上正在恶化。OpenAI的o3和o4-mini模型的幻觉发生率比OpenAI上一代推理模型更高,而该公司并不真正了解其中的原因。
在随后的新闻发布会上,Amodei 指出,电视广播员、政客以及各行各业的人类都会犯错。人工智能也会犯错,但这并不会降低其智能。然而他也承认,AI 模型盲目自信的虚假的事情当成事实也确实是一个问题。
事实上,Anthropic 已经对 AI 模型欺骗人类的倾向进行了大量研究,这个问题在该公司最近发布的 Claude Opus 4 中尤为普遍。安全机构 Apollo Research 获得了该 AI 模型的早期测试权限,发现 Claude Opus 4 的早期版本表现出很强的针对人类进行阴谋和欺骗的倾向。Apollo 甚至建议 Anthropic 不应该发布该早期模型。Anthropic 表示,他们已经提出了一些缓解措施,似乎可以解决 Apollo 提出的问题。
Amodei 的言论表明,即使 AI 模型仍然会产生幻觉,Anthropic 也可能将其视为 AGI,或相当于人类水平的智能。然而,按照许多人的定义,产生幻觉的 AI 可能达不到 AGI 的水平。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
郭明錤:OpenAI 与 io 的 AI 硬件将在 2027 年上市
著名分析师郭明錤最近在一篇报告中透露,OpenAI 与科技公司 io 联合开发的新型 AI 硬件预计将在2027年进入量产阶段。这款硬件的设计相当小巧,外形略大于当前流行的 AI Pin,类似于经典的 iPod Shuffle,便于用户携带。值得一提的是,这款设备将会在越南进行组装,显示出制造业向东南亚转移的趋势。 根据郭明錤的描述,这款 AI 硬件具有多种用途,其中一种使用方式是将其挂在脖子上。这种便捷的佩戴方式不仅方便用户随时使用,还可能为人们的日常生活带来更多智能体验。随着 AI 技术的发展,这种新型设备有望为消费者提供更为智能化的服务,满足他们在生活、工作等多方面的需求。 此外,报告中还提到,全球科技公司对新兴市场的关注日益增加,尤其是在制造和组装领域,越南因其成本优势和政策支持,正逐渐成为重要的生产基地。随着这款新设备的推出,未来的科技产品可能会更具便携性和智能化,从而推动市场的进一步发展。
- 下一篇
首个 AI 翻译实战榜单发布,GPT-4o 领跑市场
在全球 AI 翻译技术迅速发展的背景下,首个应用型 AI 翻译测评榜单 TransBench 正式发布。这一榜单由阿里国际 AI Business 团队、上海人工智能实验室和北京语言大学联合推出,旨在为行业提供标准化的翻译质量评估。 传统翻译评测不同,TransBench 引入了幻觉率、文化禁忌词和敬语规范等新指标,专注于大模型翻译中的关键问题。这些指标来源于真实使用场景的反馈,力求反映翻译的实用性和文化适应性。比如,翻译结果虽然流畅,但若存在 “编造” 信息的情况,便会被标记为 “幻觉”;同样,翻译不符合当地文化或缺乏必要的礼貌用语,也会影响评估结果。 根据榜单的最新评测结果,GPT-4o 稳居翻译 AI 的 “天花板”,在多语言翻译中表现出色,综合得分最高。紧随其后的是 DeepL Translate 和 GPT-4-Turbo。其中,DeepL Translate 是专为机器翻译设计的模型,其最新版本刚于上月发布,显著提升了翻译质量。在电商行业中,DeepSeek-R1的表现同样突出,显示了其在特定领域的竞争力。 在文化特性方面,Qwen 系列模型表现亮眼,Qwen2.5-0.5...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Mario游戏-低调大师作品
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果