开源大模型未必更先进,但会更长久
文 / 顾钧
“开源” 是指采用符合 OSI 官方认可的软件许可证进行软件发布的行为。目前大模型的 “开源” 与传统的开源定义并不相同。我所说的开源策略是指以开源发布软件为起点,用户 / 开发者运营为途径的软件产品推广策略。
我的观点是,开源策略是大模型最好的竞争策略。接下来让我们从头捋一捋推导过程。
我们先看大模型赛道的整体状况:
- 大模型是一项相对较新的技术。尽管 OpenAI 早在 2019 年就发布了第一个重要的模型 GPT-2,但大模型的广受关注实际始于 2022 年 11 月发布的 ChatGPT。8 个月以后 Meta 就与微软合作发布了开源大模型 LLaMA-2。这个赛道的主要玩家在技术和商业化上有差距,但没有到翻盘无望的程度。
- 大模型赛道不但包括模型的训练,也包括模型服务。训练是软件的制作成本,而服务是软件的长期运行成本。
- 大模型赛道的市场化程度非常高。算法、算力、数据、人才,这些构建大模型的基础要素并不为权力机构垄断,大多要从市场上获得。
- 大模型作为一项令人激动的技术,商业化场景覆盖了对企业 (2B) 与对个人 (2C) 两个大方向。
- 大模型赛道在海外是 “一超多强”,在国内则是 “多头并举”,两种典型的竞争格局都全了。
以上,大模型赛道的元素非常丰富,各种商业化方法的排列组合都不缺,为我们的分析与推演提供了可贵的素材。对软件商业化问题感兴趣的朋友一定要长期关注这个赛道。只有这样的对象才能更有力地说明开源策略的重要性。
其次,我们得明确一点 —— 大模型竞争的赛点是什么?常用的判断依据包括:技术的先进性,C 端用户基数,依赖这个软件的生态系统大小等等。其中哪个更关键一点?
技术先进是好事,但大模型领域的先进技术远没有达到能为大模型企业带来可观收入的程度。整个大模型赛道还处在商业化的摸索阶段。这个时间点上的 “技术先进性” 更多是用于公关宣传的素材。考虑到数据获取、加工的成本,模型训练的成本,这是一种相当昂贵的宣传方式。
C 端用户指那些把大模型当成智能个人助理来使用的普通个人用户。OpenAI 在 ChatGPT 上一个重要且成功的操作就是把大模型从学术界、工业界直接推向了普通个体,让 C 端用户切实感受到了大模型的可能性与魅力。这一点被国内的大模型厂商广泛学习。在 B 站刷视频,国内知名的那几个大模型厂商的广告,你一个也不会落下。
受到大家的认可与喜爱固然重要,但对于 C 端用户,有两个需要时刻牢记的问题:一是 C 端用户是没有忠诚度的,谁免费就用谁,谁给补贴就用谁;二是某一个大模型对 C 端用户比较难产生独特的粘性。
第一个问题的例证太多了,百团大战、滴滴快的、社区团购、pdd。大模型厂商维系 C 端流量的成本可能是个无底洞。
第二个问题则涉及两个方面,一是大模型赛道本身的极度内卷,技术上拉不开差距;二是普通用户的使用随意性很强,准确性要求也不高,最终各家大模型的基础能力都足以应付。
一个大模型的生态系统的大小,也就是指有多少开发者在基于这个大模型构建应用。我认为这是一个更靠谱的评价指标,是某个大模型最终能胜出的关键所在。
构建开发者生态通常有两种做法,一种是提供 API 云服务,对注册开发者进行一定的云资源补贴;另一种是 “开源” 的方法,提供大模型免费下载,免费商用(一定条件下)。两种方法各有支持者。闭源大模型一般会采用第一种方法,其中的代表有 OpenAI、Anthropic 等(为避免麻烦,国内厂商的名字就不提了)。能用第二种方法的,必然是某种程度上的 “开源” 模型,以 Meta 的 Llama 2、Llama 3 模型为首。
前段时间李彦宏在 Create 2024 百度 AI 开发者大会上放言 “开源模型会越来越落后”。前文我有提到,此时此刻的技术先进性并不重要。甚至在计算机发展史上,很多领域中笑到最后的产品,并不是技术上最先进的。抛开成本和易用性,空谈技术先进性是最常见的错误。
那么具体到大模型领域,闭源与开源,两种方法孰优孰劣?我的回答是采取什么方法因人而异,但开源会更有优势。
大模型赛道的核心制约条件是成本太高 —— 训练成本高,运行成本高。如何尽可能降低成本,比对手坚持得更久一些是确保长期成功的必要条件。现在的宏观环境下,一味靠融资来支撑自己的高成本支出不是长久之计。
闭源大模型厂商必须维持一定的云资源,工程师资源来支撑小额的开发者调试需求。投入产出上恐怕是算不过来的。即便闭源厂商愿意持续地补贴开发者,他们最终会发现大模型对开发者的粘性也非常有限,没比在 C 端用户那边好到哪里去。
大模型这一产品形态实在是太特殊了 —— 大多以自然语言为交互方式。因此大模型 API 云服务的接口是非常简单的,高度一致的。在这种情况下,如果开发者构建的大模型应用只是调用大模型的 API,那么大模型应用与某个具体的大模型之间很难形成强绑定。也就是说,面对各种大模型云服务,主动权在开发者这里。
与之相对,开源的方法至少可以相当程度地省去为了拓展开发者生态而付出的大模型运行成本。开发者免费下载大模型以后,会在自己的计算机资源上进行大模型应用的开发和调试。大模型厂商提供一些技术支持即可。同时因为大模型运行在本地,开发者在构建大模型应用时,为了物理部署上的便利,很可能会在应用与模型之间创造出物理部署上的耦合性。
当然这种 “开源策略” 不是进攻的方法,而是 “先为不可胜,以待敌之可胜”。目标是以最小的代价,尽可能多地消耗闭源对手的资源与心气。
作者简介:
顾钧
资深开发者社区运营专家,目前担任杭州映云科技 (EMQ) 市场 & 开发者社区总监一职。2004 年,顾钧从北京大学计算机系本科毕业,其后在工商银行、IBM、摩根士丹利、华为和 Zilliz 等多家知名企业工作。曾联合发起全球首个开源向量数据库项目 Milvus,并帮助 Milvus 社区在两年间迅速拓展到两千家企业用户。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
2024 中国开源模型:崛起与变革
文 / Tiezhen、Adina、Lu Cheng 2024 年,中国在开源人工智能模型领域的崛起和变革成为全球瞩目的焦点:从学术到产业,从技术到生态,中国通过自主研发和协同创新,逐步完成了从 “追随者” 到 “引领者” 的转变。这种转变不仅是技术实力的体现,更是中国人工智能生态系统快速完善的真实写照。以下,我们将从崛起与变革两个维度,探讨中国开源模型在这一年取得的重大成就和未来展望。 崛起 从 “追随者” 到 “引领者” 2024 年,中国学术界和产业界大力推进自主研发,在技术创新和模型能力上实现了显著飞跃,并在全球范围内取得了显著成就。Hugging Face Open LLM 排行榜数据显示,从智谱的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列,这些自主研发的模型在国内外各项评测中表现卓越。 每个月来自中国主要研究机构和公司的开源模型 / 数据集数量。图片源自 Hugging Face 中文社区模型社群: https://huggingface.co/spaces/zh-ai-community/zh-model-release-heatmap...
- 下一篇
大模型撞上 “算力墙”后,超级应用的探寻之路
文 / 傅聪 近日,大模型教父 Sam Altman 在 Reddit 上的评论透露出 GPT-5 难产的隐忧,直言有限的算力约束让 OpenAI 面临迭代优先级的艰难抉择,在通往 AGI 的道路上一路高歌猛进的领头羊似乎撞上了 “算力墙”。 除此之外,能耗、资金,难以根除的幻觉,有限的知识更新速率、有限的上下文宽度、高昂的运营成本等等,都让外界对大模型的发展忧心忡忡。面对棘手的困境与难题,大模型的未来,又该何去何从呢? 下一代 “明星产品” “算力墙” 下,模型效果边际收益递减,训练和运营成本高昂,在这个时间节点,最好的 AI 产品会是什么?奥特曼、盖茨、小扎、吴恩达、李彦宏等一众大佬给出了一致的答案 —— 智能体(AI Agent)。2025,将会是智能体元年。 什么是智能体?目前业界一致认可的公式是 “智能体 = LLM + 记忆 + 规划 + 工具”: 大模型充当智能体的 “大脑”,负责对任务进行理解、拆解、规划,并调用相应工具以完成任务。同时,通过记忆模块,它还能为用户提供个性化的服务。 智能体为什么是 “算力墙” 前 AI 产品的最优解决方案?这一问题的底层逻辑包含两个方面...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作