大模型撞上 “算力墙”后,超级应用的探寻之路
文 / 傅聪
近日,大模型教父 Sam Altman 在 Reddit 上的评论透露出 GPT-5 难产的隐忧,直言有限的算力约束让 OpenAI 面临迭代优先级的艰难抉择,在通往 AGI 的道路上一路高歌猛进的领头羊似乎撞上了 “算力墙”。
除此之外,能耗、资金,难以根除的幻觉,有限的知识更新速率、有限的上下文宽度、高昂的运营成本等等,都让外界对大模型的发展忧心忡忡。面对棘手的困境与难题,大模型的未来,又该何去何从呢?
下一代 “明星产品”
“算力墙” 下,模型效果边际收益递减,训练和运营成本高昂,在这个时间节点,最好的 AI 产品会是什么?奥特曼、盖茨、小扎、吴恩达、李彦宏等一众大佬给出了一致的答案 —— 智能体(AI Agent)。2025,将会是智能体元年。
什么是智能体?目前业界一致认可的公式是 “智能体 = LLM + 记忆 + 规划 + 工具”:
大模型充当智能体的 “大脑”,负责对任务进行理解、拆解、规划,并调用相应工具以完成任务。同时,通过记忆模块,它还能为用户提供个性化的服务。
智能体为什么是 “算力墙” 前 AI 产品的最优解决方案?这一问题的底层逻辑包含两个方面。
- LLM 是目前已知最好的智能体底层技术。
智能体作为学术术语由来已久,从上世纪的 “符号、专家系统”【1】,到十年前风头无两的强化学习(代表作 AlphaGo【3】),再到现在的 LLM,agent 底层技术经历了三个大的阶段。
符号系统的缺点在于过于依赖人工定义的 “符号” 和 “逻辑”,强化学习苦于训练数据的匮乏和 “模态墙”,而 LLM 一次性解决这些问题。
人类语言就是一种高度抽象、跨模态、表达力充分的符号系统,同时它作为知识的载体,自然地存在大量数据可用于训练,还蕴含了人类的思维模式。
在此基础上训练得到的 LLM,自然具备被诱导出类人思考的潜力。在 COT(思维链)【4】、TOT(思维树)【5】等技术的加持下,大模型正在学习拆解自己的 “思维”,OpenAI 的 o1 就是典型案例,强化了推理能力的同时,也大大缓解了幻觉问题。
2. 大模型做不到的,“现存工具” 强势补位。
无法持续更新的知识库,可以通过 RAG(Retrieval Augmented Generation,检索增强生成)来解决。
RAG 的出现,让各界越来越深刻地认识到,大模型没必要存储那么多知识,只需要如何使用搜索引擎这个外部工具即可。大模型可以在搜索结果上做进一步的信息筛选和优化,而搜索引擎弥补了大模型的知识缺陷,实现了 1+1>=2 的效果。
RAG 可以被理解为智能体的最简单形式。未来的智能体可以实现多种工具的混合使用,甚至多智能体协作,这不是猜想,我们已经在学术界看到了惊艳的早期方案【6,7】。
“四把钥匙” 解锁潜力
- 领域模型小型化、平台化会成为新趋势。
“算力墙” 是一方面因素,但基座模型的趋同化和运营成本是源动力。GPT、Claude、Gemini 虽然各有所长,但实际体验越来越让大家分不出差异,基座模型作为智能体核心,决定了智能体效果下限,人人训练基座的可能性越来越低,“基座服务化” 很可能是最合理的商业模式。
甚至,在错误不敏感的应用领域,出现一个开源、无商业限制的基座的可能性也很高。小应用开发商很可能很容易获得一个低成本 serving 的 “量化小基座”。
“7B” 是一个 magic number!无论是 RAG 里的向量表征模型,还是文生图、文本识别(OCR)、语音合成(TTS)、人脸识别等等垂直领域,一个 1B~7B 的小模型已经可以满足很多生产、应用需要,并且效果也在逐步推高【8,9,10】。这些模型,作为智能体的 “三头六臂”,不需要太 “大”。
同时,从学术角度来讲,各种领域专用模型的技术最优解也在逐渐趋同。应用开发者越来越不需要了解模型的底层技术,只需要懂得如何设计自己应用的任务流,懂一点点 COT 系列的 prompt engineering 的技巧,就可以利用 Maas(Model as a service)、Aaas(Agent as a service)这样的平台,如玩乐高一般搭建自己的 AI 云原生应用。
2. 算力层深挖定制化、低能耗的可能性,但固化 transformer 可能不是最优解
虽说智能体不需要太大的模型,但其运营成本(模型推理计算成本)仍然较高。在短时间内,算力、能源仍然会是大模型领域令人头疼的高墙。
根据报告【1】,能源消耗将会是 2030 模型 scaling 最卡脖子的因素。也就是说,在算力到达瓶颈之前,首先可能会出现电能供应不足甚至交不起电费的问题。因此,算力层可以根据大模型底层技术的特性,产出针对性的芯片,尤其是加速运算和降低能耗。这是未来 AI 芯片领域的最优竞争力。
那么,把 transformer “焊死” 到板子上就是最佳方案吗?我知道你很急,但你先别急。大模型底层框架还存在底层路线之争。
我们知道,Transformer 架构呈现了 O (n²) 的理论计算复杂度,这里的 n 指的是大模型输入序列的 token 数量,但其前任语言模型担当 RNN 只有 O (n) 的理论计算复杂度。
最近,以 Mamba、RWKV 为代表的类 RNN 结构死灰复燃,公开挑战 transformer 地位。更有最新研究【13】从理论上表明,RNN 对比 Transformer 的表达力,只差一个 in-context-retrieval。在这个方向的持续投入下,我们很可能会迎接一个介于 RNN 和 Transformer 之间的 “新王”。
因此,算力层短时间内的主题仍然是 “半通用化”“高算力”“低能耗”。
3. 合成数据驱动新产业链
早有机构预测,人类社会可利用训练数据会在 2026 年耗尽。这可能还是一个乐观估计。光头哥 Tibor Blaho 还曾爆料,OpenAI 用于训练 “猎户座 “的数据中,已经包含了由 GPT-4 和 O1 产出的合成数据。
这不仅是因为自然存在的高质量文本的匮乏,还因为智能体所需的数据很可能需要显式地蕴含任务思考和规划的拆解信息。然而,针对合成数据的问题,学术界早有预警,模型可能会在合成数据上的持续训练中崩坏【14】。
这是因为合成数据往往携带 “错误” 和 “幻觉”,在一些冷门的知识上尤甚。因此,合成数据的实用秘诀是 “去粗取精”,需要一定程度的 “人机协同”。在如何构造大批量、高质量的合成数据,让智能体能够在持续地与用户的交互中自我优化而不是劣化,将会成为众多无机器学习技术背景的开发者的头号难题。
因此,面向数据进行定制化合成、评估、测试、标注、人机协同的 “纯数据” 产业,有可能会走上越来越重要的位置,不仅仅是服务于基座模型厂商。
4. 多模态对齐很可能给基座模型带来质的提升
最新研究发现,在没有预先约束和约定下,不同模态领域的最强模型正在向着某个世界模型认知领域收缩【15】,AI 模型对不同概念的数字化表达(向量表征)会逐步趋同,构建对这个世界的统一认知。这也符合我们人类对世界的认知:人类通过语言文字这种符号,将不同模态的信号统一地表达,并在脑中构建了某种受限于当前科技水平的统一模型,这是人类意识、社会沟通的前提。
从这个角度理解,多模态大模型很可能是通向真正 AGI 的必经之路。将多模态信号统一对齐,是智能体与这个世界 “无障碍” 交互的前提,换个新潮的词汇,就是我们期待的 “具身智能”。谁不想拥有一台自己专属的 “Javis” 呢?而多模态大模型的突破,也同样依赖前文所述的算力和数据上的沉淀。
参考文献
【1】https://epoch.ai/blog/can-ai-scaling-continue-through-2030
【2】Newell, A., & Simon, H. A. (1956). The Logic Theory Machine – A Complex Information Processing System. IRE Transactions on Information Theory, 2(3), 61-79.
【3】Silver, David, et al. "Mastering the game of Go with deep neural networks and tree search." nature 529.7587 (2016): 484-489.
【4】 Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.
【5】Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models." Advances in Neural Information Processing Systems 36 (2024).
【6】Karpas, Ehud, et al. "MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning." arXiv preprint arXiv:2205.00445 (2022).
【7】Schick, Timo, et al. "Toolformer: Language models can teach themselves to use tools." Advances in Neural Information Processing Systems 36 (2024).
【8】https://huggingface.co/spaces/mteb/leaderboard
【9】https://github.com/deep-floyd/IF
【10】https://developer.nvidia.com/blog/pushing-the-boundaries-of-speech-recognition-with-nemo-parakeet-asr-models/
【11】Mamba: Linear-time sequence modeling with selective state spaces
【12】Peng, Bo, et al. "Rwkv: Reinventing rnns for the transformer era." arXiv preprint arXiv:2305.13048 (2023).
【13】Wen, Kaiyue, Xingyu Dang, and Kaifeng Lyu. "Rnns are not transformers (yet): The key bottleneck on in-context retrieval." arXiv preprint arXiv:2402.18510 (2024).
【14】AI Models Collapse When Trained on Recursively Generated Data’
【15】The Platonic Representation Hypothesis
作者简介:
傅聪
浙江大学计算机博士,美国南加州大学访问学者,《业务驱动的推荐系统:方法与实践》作者。高性能检索算法 NSG、SSG 的发明者,知乎科技博主 “傅聪 Cong”。
前阿里巴巴算法专家,目前就职于 Shopee(新加坡)任资深算法专家。在顶会和期刊 TPAMI、KDD、VLDB、IJCAI、EMNLP、CIKM 等发表十余篇论文,同时也是 Tpami、TKDE、KDD、ICLR、AAAI、IJCAI、EMNLP、ICLR 等会议的审稿人。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源大模型未必更先进,但会更长久
文 / 顾钧 “开源” 是指采用符合 OSI 官方认可的软件许可证进行软件发布的行为。目前大模型的 “开源” 与传统的开源定义并不相同。我所说的开源策略是指以开源发布软件为起点,用户 / 开发者运营为途径的软件产品推广策略。 我的观点是,开源策略是大模型最好的竞争策略。接下来让我们从头捋一捋推导过程。 我们先看大模型赛道的整体状况: 大模型是一项相对较新的技术。尽管 OpenAI 早在 2019 年就发布了第一个重要的模型 GPT-2,但大模型的广受关注实际始于 2022 年 11 月发布的 ChatGPT。8 个月以后 Meta 就与微软合作发布了开源大模型 LLaMA-2。这个赛道的主要玩家在技术和商业化上有差距,但没有到翻盘无望的程度。 大模型赛道不但包括模型的训练,也包括模型服务。训练是软件的制作成本,而服务是软件的长期运行成本。 大模型赛道的市场化程度非常高。算法、算力、数据、人才,这些构建大模型的基础要素并不为权力机构垄断,大多要从市场上获得。 大模型作为一项令人激动的技术,商业化场景覆盖了对企业 (2B) 与对个人 (2C) 两个大方向。 大模型赛道在海外是 “一超多强”...
- 下一篇
AI 编程技术与工具发展综述(2024 年 )
文 / 朱少民 2024 年 8 月下旬,一款 AI 代码编辑器 ——Cursor 火爆全球,火到一位 8 岁小女孩拿着它学编程,几十分钟内搭起来一个聊天机器人,其演示吸引来 180 万人在线围观。这导致有人大胆预言,未来编程只需要狂按 Tab 就够了。Cursor 确实好用,包括新推出的 “光标位置预测” 功能。 但是 AI 编程发展没有那么快,在国内生成代码采纳率还比较低,根据《2024 软件研发应用大模型国内现状调研报告》,多数团队在 10-40% 之间,如图 1 所示。 图 1 大模型(LLM)在编程上的应用及其生成代码的采纳率 在 2024 年,我们还看到了 “AI 程序员” Devin 的诞生,Devin 能够独立完成复杂的编码和调试任务、自主查找和修复代码库中的错误,构建和部署应用程序。在 SWE-bench 编码基准测试中,Devin 能够解决 GitHub 中 13.86% 的真实问题,有了很大提升。 说起 SWE-bench 编码基准测试(https://www.swebench.com/),2024 年进步很快,以 OpenAI 建立的 verified 子集(5...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker安装Oracle12C,快速搭建Oracle学习环境