如何正确看待 AI 的推理能力?走出人类中心主义
编者按: 人工智能真的能"推理"吗?我们是否正在用过于狭隘的人类思维,限制了对 AI 推理能力的认知?我们今天为大家带来的文章,作者的观点是:AI 的推理能力不应被简单地用"人类中心主义"的标准来否定。文章重点揭示了三个关键内容:
- 推理能力的定义应更加开放,不应局限于传统人类思维模式
- 通过多个标准化测试(如 HellaSwag、WinoGrande),AI 在推理任务中已展现出显著能力
- 我们需要以更开放的心态,将 AI 视为一种独特的"外星智能"
这不仅是一篇技术解读,更是对人类智能的深刻反思。在 AI 快速迭代的今天,我们是否能突破"人类中心主义"的思维桎梏,以更开放、更谦逊的态度拥抱这种新兴的"外星智能"?
作者 | Rafe Brena, Ph.D.
编译 | 岳扬
Image by the author using ChatGPT
近期,关于人工智能是否具备推理能力的讨论愈发白热化。近期发布的 DeepSeek R1 模型和 OpenAI o3-mini 模型[1]引发了各方反应[2],有观点认为"这不过是炒作和幻象",也有观点视其为"人工智能的新典范"。
人工智能的推理能力(或推理能力的缺失)似乎触动了众多人的敏感神经。我猜想,他们认为承认人工智能能够"推理"被看作是对人类自尊的一种打击,因为这样说明推理并非人类独享。
在十九世纪,算术被视为一种智力成就(嘿,你见过牛做加法吗?)。然而,我们必须适应使用远比我们强大的计算器。
我见过一些令人震惊的论断,从"我们即将实现通用人工智能"到"人工智能已达到博士水平"再到对人工智能推理能力的彻底否定,例如"苹果公司称人工智能革命是扯淡"。
在其它文章中,我曾评论过埃隆·马斯克(Elon Musk)的粉丝们所宣称的 AGI 是多么的无稽之谈。在本文中,我将探讨上述观点的另一端:针对那些宣称人工智能根本无法推理的人。
加里·马库斯(Gary Marcus)[3],最直言不讳的人工智能否认者(我并不称他们为"怀疑论者"),认为人工智能在模式识别上可能表现卓越,但缺乏"真实推理"的能力。
此外,马库斯将 AI chatbots 称作"被美化的自动补全",为艾米莉·本德(Emily Bender)在 ChatGPT 早期发明的著名贬义词"随机鹦鹉"增添了一个新术语。
何为"真正的推理(genuine reasoning)"?我将在下文中尝试回答这个问题。
甚至像诺姆·乔姆斯基(Noam Chomsky)这样更有声望的思想领袖也认为人工智能无法 "真正思考",认为它缺乏 "understanding of meaning"(译者注:部分研究者认为,AI 可能通过"具身智能"(embodied AI)或更复杂的多模态学习逐步接近"意义理解"。但乔姆斯基派坚持认为,只要 AI 没有意识、意图和身体经验,其"理解"就与人类有本质区别。)。他还认为,人工智能永远无法与人类的创造力和抽象思维能力相抗衡。
01 大语言模型(LLMs)能推理吗?
在这些支持和反对人工智能具备推理能力的激进观点的洪流中,我们怎样才能理解哪些是基于事实的,而不仅仅是单纯的个人感觉或个人想法呢?当然是看证据。
但这场争议中的"事实(facts)"究竟是什么?请注意,所谓"事实"很大程度上取决于你对"推理"的定义,尤其是当有些人进一步要求推理应当是"真正地推理(truly reason)"时。例如,萨尔瓦托雷·拉伊利(Salvatore Raieli )在他最近的文章中问道:
"大语言模型(LLMs)真的能推理吗?(Can Large Language Models (LLMs) truly reason?)"
这里的关键词是"真正地(truly)"。那么,"推理"与"真正地推理"有何区别?我怀疑这里存在一种人类中心主义的偏见,好像"真正地推理"意味着"像我们人类一样推理,我们是宇宙中唯一真正的推理者"。
相反,我更愿意将"推理"定义为解决公认需要推理的问题的认知能力。这包括数学推理(mathematical reasoning)、常识推理(commonsense reasoning)、语言理解(language understanding)和推断(inference)等。
这个定义可能有些循环论证的嫌疑。但一旦我们就一系列与特定能力相关的问题达成共识,接下来就是检验人工智能系统是否能解决这些问题。问题在于,正如我将在下文中论述的,当前的人工智能可能在解决某个问题时得心应手,但对人类而言看似与这个问题相似的问题(如不同角度的物体识别、同一问题的不同表达方式),AI系统可能完全无法处理。
请留意,在采用这个定义时,我明确与著名的"图灵测试"(Turing Test)区分开来。图灵测试的目的是想通过骗过人类评委,让他们以为自己是在和真人对话。如果你还没听说过图灵测试,可以看看我写的文章"Why the Turing Test Became Obsolete?(图灵测试为何不再适用?)"[4]
同时,我也不同意那种认为人工智能要变得聪明就必须"像人一样推理"的观点。我认为"像人类一样推理"这种表述是模糊的、拟人化的,且没有实际价值。
在文章的最后一部分,我认为现代人工智能其实根本不是"像人一样推理";它更像是一种非人类的形式、或者说"外星"智能。
另外,还有人提出,"真正的推理"应该是在所谓的"思维链"(Chain of Thought,CoT)中进行的"多步骤思考(think in several steps)"。
这个和 AI chatbots 有关的想法,最初是由谷歌研究院在 2022 年的一篇论文"Chain of Thought Prompting Elicits Reasoning in Large Language Models"[5]中提出的。OpenAI 实现了这个想法,并且做得很好,因此有人称其为 "人工智能的新范式"。
我并不反对在人工智能中使用思维链(CoT),比如 OpenAI 就做得很好(相关测试结果清楚地表明了改进之处)。但我觉得,推理是一种认知能力,不仅仅局限于多步骤的思考。
推理也不只是"解决复杂问题"(就像上文提到的 Raieli 说的那样)。我觉得推理可以很简单,也可以很复杂,而且每种推理都应该有客观的测试方法。
说到这里,你大概能明白为什么很多人觉得"人工智能不会推理"了:
- 有些人觉得人工智能不是"真的"在推理,或者不是"像人一样推理"。
- 另一些人认为 AI 应该精通"复杂推理和问题解决",却忽视了更简单的推理形式。
- 还有一些人对任何不是由一系列推理步骤组成的推理都不屑一顾。
很多事情都是细节决定成败,这里的细节就是怎么定义所谓的"推理能力"。我已经在上文给出了我的定义。我觉得这些对人工智能推理能力的质疑其实是一种偏见,因为一开始就改变了"推理"的含义。
现在,我们来聊聊怎么验证和衡量推理能力。
02 怎么衡量智能?
请记住,我们衡量认知能力的标准,与蒙骗那些被诱导相信自己在"与拥有灵魂的实体互动"的轻信者毫无关系 ------ 这让人想起前谷歌工程师布莱克·勒莫因(Blake Lemoine)那听起来很玄但其实不对的观点,他曾以道德理由拒绝关闭一个"有意识"的 AI chatbot。
咱们衡量认知能力,可不能靠主观感觉。得用标准的题库来测量,比如:
- HellaSwag[6] 和 WinoGrande[7],用来看看 AI 的常识推理能力怎么样。
- GLUE[8] 和 SuperGLUE,用来评估 AI 理解自然语言的能力。
- InFoBench[9],用来检查 AI 能不能好好遵循指令。
- AI2 Reasoning Challenge(ARC)[10],里面还包括了思维链能力的测试。
这些题库各有各的侧重点,但都在考察"推理"能力。你得知道,"推理"可并不是一个单一的任务,很多不同的任务都可以算是"推理"。
从我开始用 ChatGPT 的时候,我就发现它特别听话,能按指令办事。说实话,这让我对大语言模型(LLMs)的推理能力有了新的认识,我下面会详细说说。
有一天,我听到了 Sebastien Bubeck(那时候他在微软,现在在 OpenAI)关于大语言模型的推理能力的一个很有道理的观点:
要是 AI 不懂指令,它怎么会照着做呢?
没错。
Bubeck 的意思不是 AI 会说"我听懂了你的问题"。而是 AI 会按照指令去做,然后我们人(或者别的程序)来检查它做得对不对。
现在有了衡量遵循指令能力的基准测试,这个观点可以更深入地讨论。
接下来,让我们探讨一下常识推理。这被认为是人类特有的品质,对吧?但事实上,常识推理也可以通过像 WinoGrande 这样的基准测试来评估。
来看看 WinoGrande 的问题是怎么问的。这个基准测试大部分问题都是关于代词指代,比如这个:
"Ann 问 Mary 图书馆什么时候关门,因为她忘记了。"
这里的"她"是指谁,Ann 还是 Mary?
人类一眼就能看出"她"是 Ann,因为问题是她问的。但机器碰到这种问题可能就犯难了。
很明显,用题库来测试 AI 的认知能力时,得确保 AI 之前没见过这些题,不然就是"作弊"了。
那大语言模型在这些题库测试里表现怎么样呢?
比较起来有个麻烦,就是每家 AI 公司用的题库都不一样,我猜他们肯定是挑自己 AI 得分高的题库。所以,大家常用的比较方法变成了使用"Chatbot arena",不是看题库成绩,而是看人投票。这又让我们想起了图灵测试的那些问题......
截至 2024 年 12 月 10 日的 Chatbot 竞技场排名(Hugging Face)
在 HellaSwag 这个测试里,Gemini Pro 1.5 得了 92.5分(满分100),GPT-4 Turbo 更厉害,得了 96 分(虽然不是最新版本,但也能看出个大概)。
这局 OpenAI 赢了,Google 输了。
在 MMLU 这个测试(跟 GLUE 差不多)里,GPT-4 大概得了87分,Gemini Ultra 得了 90 分。
这局俩人都赢了一次,打平了。
我们还可以继续比下去,但说实话,现在最牛的这些 LLMs 水平都差不多。为啥呢?因为顶尖的 AI 专家们都在这些大公司之间跳来跳去,人才流动太频繁了。
重点是,现在这些最厉害的 LLMs 都有的认知能力,不是光靠运气或记忆力就能解释的。所以,我觉得那个"随机鹦鹉"的说法,其实啥也说明不了。
03 "外星智能"
咱们人类碰到现在这种人工智能(就是那种基于大语言模型的 AI)时,经常会觉得摸不着头脑,这其实是有原因的。
我最近写了篇文章[11],说了说人类智能和这种现代 AI 有啥不一样。主要区别有这么几点:
- 区别1:人类是真的有感情;机器呢,只是装装样子。
- 区别2:人类对事情的理解很明确,懂就是懂,不懂就是不懂。
- 区别3:机器在做决定时,从来不会犹豫。
这三个区别都很重要,但我想重点说说区别2,因为它跟推理能力关系最大。咱们来好好聊聊这个。
咱们人类有时候会突然"开窍",对某个事情有了彻底的理解,这种理解是很坚定的,不会因为一些无关紧要的细节就改变。但是机器呢,就不是这么回事了。
最近,苹果公司的研究人员发了篇论文[12],这篇论文引起了很大的反响(而且是好的那种)。论文里说了,大语言模型在推理任务上其实有很多局限性。
苹果的研究人员还专门做了数学推理能力测试,用了一种特别的测试方法来评估。他们做了些很有意思的实验,我接下来就给大家讲讲。
在其中一项实验中,研究人员先测试了系统在回答一系列问题时的表现,然后他们对问题进行了一系列所谓的无关修改,比如改了人名、数字或者加入了一些无关的内容。结果他们发现,当再次测试时,系统的表现大幅下滑。
为什么修改这些无关信息会导致系统表现下降呢?因为在类似的情况下,人类几乎总能分辨出哪些信息是重要的,哪些不是,然后忽略掉无关的信息。但机器在这方面就很吃力了,尽管它们在很多情况下都能给出正确答案,但整体表现还是受到了很大影响。
苹果公司的实验无可辩驳。但如何解读这些结果确实是个问题。
在得出结论时,我发现苹果的研究人员也和大家一样有偏见。比如,他们说"当前的 LLMs 无法进行真正的逻辑推理。"我猜各位读者能找出这句话的关键词,就是"真正的"。我们再次把人类的推理视为唯一"真实"的推理方式。
04 结束语
大多数对 AI 推理的否认都基于一种偏见,这种偏见通常与"AI 应该像人类一样推理"的假设有关。如果不是这样,那么 AI 就不是在推理------或者说不算作推理。
这一切都取决于我们如何定义"AI 能推理"。
有些人认为,模式匹配意味着完全无法进行"真实"的推理,即使 AI 在大多数情况下都能给出正确答案。
这就好像在说,任何通过模式匹配完成的事情"都不算作推理"。但是,如果 AI 在许多------不是所有的推理测试中都给出了正确答案呢?如果 AI 在推理问题上逐渐给出了越来越高的准确率,无论是否使用模式匹配呢?
我再次看到了我们的"人类自豪感"在作祟。我们人类是宇宙的主宰,不是吗?所以,我们的推理应该是唯一有效的推理方式。我们已经先后被计算器、深蓝(国际象棋)和阿尔法狗(围棋)超越,受到了打击。现在,我们的通用推理能力又受到了"大规模模式匹配"装置的挑战,这简直是雪上加霜。
我们是要固守'人类中心主义'的立场------自视为宇宙的主宰,还是转向更谦逊(或许也更现实)的认知:将人类视为非凡但有限的存在,能够与其他形态的智能进行互动?
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Rafe Brena, Ph.D.
AI expert, writepreneur, and futurologist. I was in AI way before it became cool.
END
本期互动内容 🍻
❓在你看来,AI 的推理能力与人类推理能力最大的不同点是什么?
🔗文中链接🔗
[1]https://openai.com/index/openai-o3-mini/
[6]https://paperswithcode.com/dataset/hellaswag
[7]https://winogrande.allenai.org/
[9]https://arxiv.org/abs/2401.03601
[10]https://paperswithcode.com/dataset/arc
[12]https://arxiv.org/pdf/2410.05229
原文链接:
https://towardsdatascience.com/why-ai-cant-reason-is-a-bias-3c582bba1aeb

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
上线零事故!洋葱学园 × Zadig 打造云原生交付新标杆
洋葱学园成立于 2013 年,是中国领先的智能学习科创公司,专注于通过 AI 人机协同模式 推动教育普惠。公司以 8000+ 情景化数字课程 为核心,构建了覆盖学生自主学习、教师精准教学的智能生态,累计服务全国的 1.1 亿+学生 和 336 万+教师用户,市场渗透率居行业领先。 在技术路径上,洋葱学园坚持 “为教育定制 AI” ,自主研发智能学伴、知识图谱引擎等工具,单课程研发投入超 10 万元,确保内容与技术的深度融合。同时,公司通过 “洋葱助教行动” 向 29 个省份里面的超过 3.3 万所乡村学校捐赠资源,实现教育公平与企业发展的双轮驱动。 随着业务的快速发展,洋葱学园的微服务数量增至 300+,日均服务调用超 10 亿次。原有的交付体系难以支撑高并发迭代需求,复杂的多环境验证、上线流程自动化等问题,成为 规模化扩张的关键瓶颈,亟需构建更高效的云原生交付体系。 面临的痛点 针对业务不断拓展带来的更高的质量要求,我们分析出了在上线流程中的一些待优化点,主要包括以下几个方面: 提高上线过程的标准化程度:我们上线的过程质量需要进一步提高,需要更标准的上线规划和上线执行流程,来解决掉上...
- 下一篇
当任务失败时,顶级调度系统如何实现分钟级数据补偿?
一、补数机制的定义与挑战 补数(Backfill) 指在数据管道因系统故障、数据延迟或逻辑错误导致历史任务缺失时,重新调度并执行指定时间范围内的工作流以修复数据缺口。在大数据场景中,补数机制需解决三大核心挑战: 复杂依赖链重建:需精准识别历史时间段内任务上下游关系,避免因时间窗口错位导致数据逻辑混乱; 资源过载风险:补数任务常涉及海量历史数据处理,需动态平衡资源分配与任务优先级; 状态一致性保障:需确保补数任务与实时调度任务的隔离性,防止数据污染。 二、DolphinScheduler补数机制的技术实现 2.1 架构设计支撑 DolphinScheduler采用分布式去中心化架构,通过Master-Worker动态扩展能力实现补数任务的弹性调度: 时间窗口智能切割:将补数区间拆解为独立子任务,支持并行/串行混合执行模式,提升吞吐量; 依赖感知调度器:基于DAG解析引擎自动重建历史依赖链,确保任务拓扑关系与原始定义一致。 2.2 核心功能特性 | 功能维度 | DolphinScheduler实现方案 | |:--------:|:----------------------------...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果