深度求索公司申请多枚 DeepSeekChat 商标
天眼查 APP 资料显示,杭州深度求索人工智能基础技术研究有限公司近日申请注册多枚 DeepSeek Chat 商标,国际分类涉及教育娱乐、广告销售等,当前商标状态为等待实质审查中。
AI Infra再次起飞的前夜,回顾从大数据到大模型,Data & AI Infra 的演进之路1.0-> 2.0 -> 3.0
(题图由即梦AI生成)
引子:
最近,笔者参加一场现场直播,直播题目是《AI Infra起飞前夜:开源、免费的模型有了,如何实现算力自由》,跟业内专家一起聊AI Infra的相关议题。我在直播访谈中,梳理了Data Infra和AI Infra的几个发展阶段。之后,在杭州参加开放原子基金会TOC的讨论,跟朋友们交流了DeepSeek等大模型对Data Infra和AI Infra对影响,以及我们如何进行前瞻性的研发和应对,那次讨论很热烈,也让我受益匪浅。之后,我又搜集了一些相关资料,有了更深的理解和感悟。作为曾经参与创建中国互联网行业第一个Inf部门(百度基础架构部),之后又在国内推动以实时特征计算、“Data-Centric AI vs Model-Centric AI” (Data-Centric AI 强调以高质量的数据驱动AI模型优化,而 Model-Centric AI 则侧重于模型结构和算法的创新)为主要特点的的AI Inf 1.0的建设和采纳,现在预感到DeepSeek的出现将大大普及AI大模型的应用,从而推动AI Infra的再次起飞。值此AI Infra再次起飞的前夜,我写下此文。
前言:
“数据是新时代的石油”,这句话深刻揭示了数据在数字经济中的核心地位。Data Infra(数据基础设施)与 AI Infra(人工智能基础设施)正是承载这份宝贵“石油”的管道和炼油厂,它们的发展历程不仅是技术浪潮的缩影,更预示着未来智能世界的图景。本文将追溯 Data & AI Infra 走过的三个关键阶段,剖析其核心特征、关键技术及应用场景,并着重关注中国在这场科技变革中的崛起,最终展望未来的发展趋势。Data & AI Infra 的每一次迭代,都源于对更高效数据处理和更强大智能应用的不断追求,二者相辅相成,共同驱动着数字经济的蓬勃发展。。
2003年起到2006年,Google 发表了 GFS(Google File System)、MapReduce 和 Bigtable 三篇堪称划时代的论文,标志着大数据时代的开始。其中2003年10月发表的GFS 论文,详细介绍了Google内部是如何采用大批廉价硬件,通过数据冗余和错误检测机制,实现了大规模的数据存储,满足了Google把全世界的网页进行索引建库的需求,更是被认为是Data Infra的开山之作。可惜Google只公开了论文,并没有开源相关项目。而从2006年起,Doug Cutting等开创的Apache Hadoop项目作为这些思想的开源实现,迅速成为业内分布式大规模数据存储和计算的事实标准。这一时期的主要业务是离线批处理,其主要目标是解决海量数据的存储和分析难题,为后续的更多数据应用奠定基础。
核心技术:
主要应用场景:
关键数据:
根据 IDC 的报告,全球数据总量从 2010 年的 1.2ZB 增长到 2013 年的 4.4ZB,年复合增长率超过 50%。这一惊人的增长速度充分印证了大数据时代的来临,也驱动了对更强大数据处理能力的需求。Hadoop 生态系统在这个时期迅速壮大,并在全球各大互联网公司得到广泛应用,成为Data Infra 1.0时代的基石。
代表技术公司:
中国的发展:
中国互联网企业也敏锐地捕捉到了这一趋势。百度从2008年开始研究Hadoop开源技术,并在其系统部内搭建相当规模的Hadoop集群,2010年整合多个部门相关技术人员,成立了基础架构部,集中搭建并提供HDFS集群服务,之后还仿照Hadoop的实现,重新用C++实现并上线了多套分布式文件系统,例如CCDB-NFS、AFS等分布式文件系统。
阿里巴巴、腾讯等公司也纷纷仿照,建立了自己的 Hadoop 集群,还自研分布式文件系统例如TFS(Taobao File System)等,用于处理日益增长的海量数据,支撑其核心业务发展。与此同时,中国的开源社区也开始活跃起来,涌现出一批优秀的 Hadoop 开发者和贡献者,例如HBase的pmc主席张铎等,为中国大数据技术的发展注入了活力。
总结:
我认为这是Data Infra的1.0时代,很多技术和标准时至今日仍然是主流,例如HDFS的接口标准,S3的接口标准等,几乎后来的每个Data Infra或者AI Infra的实践者都支持HDFS和S3的接口标准等。
2. AI 1.0 发展期(2012-2023):实时智能化的演进,Data Infra的2.0时代
2012年AlexNet在ImageNet图像识别大赛中一举夺魁,优势相当显著,成绩断崖式领先,它证明了深度学习算法的有效性,从此工业界开始进入了AI 1.0时代。这一时期的特点是AI 1.0即判别式AI,主要包含图像识别、文字识别、语言识别等多个识别性任务,以及用于搜索、广告、推荐、金融风控场景下的多种判定性任务。
互联网大厂的“搜索/广告/推荐”场景,俗称“搜广推”,例如百度、阿里、字节等的广告推荐、购物推荐、短视频推荐等,都是商业价值极高的场景,推荐的准确性和召回率可以直接影响这些企业的营收,推荐效果上每提升一个百分比,都意味着巨大的收益。这些企业都花了大量的人力和机器资源进行长期投入,所以每个公司都有相应的团队,包括负责算法和策略的科学家团队,以及负责工程和数据的Infra团队。
在技术上,数据的高质量实时供给是算法和策略保证AI最终效果高性能的核心,同时也是良好用户体验和优秀商业闭环的关键。所以,对大规模数据处理的速度和实时性提出了更高的要求,传统的MapReduce离线处理方式已经无法满足在线应用的需求,Spark、Flink 等更高效的批/流计算技术应运而生,数据湖架构也逐渐成熟,为构建更加灵活和智能的数据平台提供了基础。这一时期的核心技术特征是实时计算,数据分析从过去的“事后分析”走向“实时洞察”,推荐系统也从离线训练走向离在线结合的阶段,例如某些互联网大厂的在线推荐场景,采用每天一次全量线下训练,每15分钟一次增量训练的方式,以提高推荐的准确率和召回率。同时,对在线推理的性能要求也非常高,部分人工智能场景的推理请求需要在100ms甚至10ms级别的时间内返回,才能保证用户体验和满足业务的实时性要求(例如金融的实时风控场景)。
2021年,著名AI科学家和企业家吴恩达提出了“Data-Centric AI”,他认为“Model-Centric AI”即算法已经达到了瓶颈,相反数据更重要。他是针对图像识别的实际场景有感而发的,他通过他创办的landing.ai公司进行AI商业落地的实践发现这一点的。不过他也没想到随后几年大模型在算法上的进步如此之快,彻底改变了AI的整个产业。
这个时候,我认为是Data Infra的2.0时期,也是AI Infra的1.0时期。
(Apache Flink的logo,它是最流行的流式计算框架)
(吴恩达关于Data-Centric AI的一次演讲的材料总结)
核心技术:
业务形态:
关键数据:
根据 Gartner 的统计,到 2020 年,全球人工智能市场规模达到了 215 亿美元。同时,主流深度学习框架如 TensorFlow 和 PyTorch、PaddlePaddle 的用户数量和应用案例呈现指数级增长,标志着人工智能技术进入快速发展期。
代表技术公司:
中国的发展:
中国在AI Infra 1.0或者Data Infra 2.0时期,相对在Data Infra 1.0时期是完全跟随并且跟国际一流水平差距在5年左右不一样的是,中国大幅度缩短了跟世界一流水平的差距,在局部领域取得了相当令人瞩目的进展。
这里仍然要先提一下百度,百度是业内第一个把深度学习用于商业广告系统并实现了巨大商业利益的公司,也是国内外第一个组建深度学习Lab的公司。百度从2011年起,在百度凤巢架构师戴文渊、陈雨强等的带领下,把百度商业广告系统的底层算法彻底重写,换成深度学习算法,显著的提升了百度搜索广告系统的效果,比Google大规模采用深度学习来重构谷歌广告系统还要早一些。为此,百度凤巢的工程团队以及基础架构部,一起为这些科学家们提供了高质量的数据平台、AI训练和推理平台,来支撑了这一改变。
阿里巴巴、腾讯等互联网巨头纷纷也加大在人工智能领域的研发投入,并在语音识别、图像识别、自然语言处理等领域取得了很好的地位。同时,中国的人工智能创业公司也如雨后春笋般涌现,涌现出了一批在特定行业具有创新优势的企业,比如有“CV 4小龙”之称的商汤、旷视、云从、依图等,在机器学习平台卓有建树的第四范式公司(创始人正是从百度出去的戴文渊和陈雨强)等。
总结:这段时间我认为是Data Infra的2.0时期,或者称之为AI Infra的1.0时期,技术特点是大规模数据实时计算以及Data-Centric AI的理念兴起,支撑AI 1.0时期的判别式AI场景应用。但是比较遗憾的是,因为在此阶段AI 1.0的场景应用不多,“搜广推”虽然价值很高,但是能有这么大流量的公司并不多,而需求决定供给,造成AI Infra仅仅在小范围内局部流行。虽然也出现了一些大企业例如Databricks,但是总体来说没有达到相关业内从业者的期望值。所以我认为,这个时期是AI Infra想起飞却没有飞起来的时期。
3. AI 2.0 爆发期(2023 至今):大模型时代的挑战与机遇,即Data Infra 3.0时期,也是AI Infra 2.0时期
2023年以来,以 ChatGPT 为代表的大模型和对话式应用的涌现,将人工智能的发展推向了前所未有的高度,我们称之为AI 2.0时代,即生成式AI时代。在这个阶段,这些大模型的参数规模呈指数级增长,展现出惊人的通用能力,但也对底层的算力、数据和算法提出了空前严峻的挑战。这一时期的核心特征是语言大模型和多模态大模型的训练和推理,以及构建在这些大模型之上的应用,包括MaaS(Model as a Service)以及各种AIGC应用(例如文生图、文生视频等)。按照陆奇博士的说法,一个产业爆发的时刻就是边际成本变为固定的时刻。通用大模型的泛化能力可以解决很多场景的问题,尤其是开源大模型的能力提升到一个商业可用的级别,业内进一步降低了使用大模型的成本,人工智能正加速从特定任务走向通用智能。
(图片为transformer架构图)
此阶段的AI Infra主流形式是AI Infra平台,主要功能包括三大能力:算力管理、模型管理、应用管理,其中算力管理主要提供计算、存储、网络、安全等基础资源服务,模型管理则提供模型开发和应用的各种基础工具和组建,例如数据治理、模型训练、精调、部署、推理等,应用管理则主要负责资源管理、运营管理和运维管理等。
核心技术:
业务形态:
商业形态:
跟AI Infra 1.0时期不一样的是,那个时期因为应用场景少,绝大多数从业者集中在科技大厂的内部,负责一些高价值的“搜广推”业务和智慧安防等业务,而在AI Infra2.0时期,云服务厂商逐渐成为了主流,出现了大量公有云、私有云的AI平台服务,尤其是Maas(Model as a service),在云上提供模型的API服务,以token的方式进行计价的厂家。据DeepSeek在2025年3月1日的报告披露,在云上提供收费的模型API服务,理论上成本利润率可以达到545%之高。此外,通过提供软硬一体的AI一体机服务,内置AI大模型和AI Infra软件平台以及相关CPU/GPU硬件,可以大大缩短大模型服务交付时间,同时也满足甲方客户对于数据隐私,控制信息泄露的需求,近几个月来是一个猛然爆发的市场。
关键数据:
OpenAI 的 GPT-3 模型参数量达到了 1750 亿,而最新的 GPT-4 模型参数量据估计已经超过万亿。DeepSeek V3的模型参数量是6710亿。大模型在各个领域的应用案例不断涌现,例如在代码生成、药物发现、教育辅导等领域都展现出巨大的潜力。
中国的发展:
中国在大模型领域也迅速崛起,百度发布了“文心一言”、阿里巴巴推出了“通义千问”、腾讯推出了混元大模型等一系列具有影响力的中文大模型。特别值得一提的是,中国杭州DeepSeek公司推出的DeepSeek R1和V3模型,以低成本、高性能、开源的特性,赢得了国内外产业的一致认同。同时,中国的 AI 芯片公司也在努力突破技术瓶颈,希望在大模型时代占据一席之地。中国政府也加大了对人工智能基础设施的投入,例如建设国家级的算力中心,以更好地支持大模型的研究和应用。
据赛迪顾问发布的《2025中国AI Infra平台市场发展研究报告》指出,2023年,中国AI Infra平台市场规模为12.7亿元。在企业级AI应用场景持续拓展、AI应用私有化部署需求强劲、AI运营能力要求提升等因素的驱动下,中国AI Infra平台市场规模将保持高速增长,预计2024年、2025年将分别达到19.4亿元和36.1亿元,2025年同比增长将超过86%。
新的技术趋势:
(1)Data Infra 和 AI Infra 的深度融合,以适应大模型时代的需求
Data Infra 和 AI Infra 将不再是彼此独立的系统,而是走向更深度的融合,以满足大模型时代对数据处理和智能应用提出的极致需求。这种融合体现在多个层面:
首先,存储系统的升级换代将直接服务于 AI 工作负载。传统的数据存储方案无法高效地支持大模型训练和推理过程中的海量数据吞吐和低延迟访问需求。以近期备受关注的 DeepSeek 开源周上发布的 3FS(Fire-Flyer File System) 为例,这正是面向 大规模AI 训练和推理场景设计的高性能分布式文件系统。3FS 专注于充分发掘和利用现代 SSD 存储和 现代RDMA 网络的能力,实现了惊人的聚合读取吞吐量(例如,在拥有 180 个节点的集群下达到了 6.6 TiB/s)。这种专为 AI 设计的文件系统,能够像 AI 时代的“数据高速公路”一样,极大地加速数据从存储到计算的流动,解决 AI 模型训练过程中的数据瓶颈问题。
其次,计算基础设施将更加紧密地与数据管理和调度相结合。AI 模型训练需要消耗大量的计算资源,而这些计算资源需要高效地访问和处理海量数据。未来的 AI Infra 不仅需要提供强大的算力,更需要与 Data Infra 深度整合,实现数据和计算资源的智能调度和优化。例如,AI 训练平台需要能够感知底层数据存储的状态,根据数据分布和模型需求,智能地分配计算任务,从而提高整体效率。
(2)AI Infra 和底层操作系统的深度融合
首先,我们可以看到 AI 基础设施在资源管理方面也开始借鉴成熟的操作系统的理念。例如,vLLM(一个用于快速且轻量级 LLM 推理的库)中引入的 Page Attention 机制,其核心思想与操作系统中的内存分页管理非常相似。通过将模型的 KV Cache 分割成更小的块进行动态管理,Page Attention 有效提升了 GPU 显存的利用率,减少了碎片化
其次,AI 应用对底层资源的管理提出了新的需求,这促使 AI 基础设施在某些方面借鉴甚至直接整合操作系统的功能。未来的操作系统需要进行专门的优化,以更好地支持 AI 工作负载,例如提供更细粒度的 GPU 资源管理、优化的内存管理机制(如 Page Attention)、以及对特定 AI 硬件(如 NPU)的更好支持。这种融合旨在为开发者提供更加统一和便捷的开发和部署体验,直接在操作系统层面利用 AI 加速能力。未来的操作系统也可能直接暴露底层 AI 加速硬件的能力,例如提供标准的 API 供应用程序直接调用,而无需通过额外的中间层。尽管面临操作系统的复杂性和硬件多样性等挑战,AI Infra 和操作系统的深度融合将是提升 AI 应用性能和效率的重要趋势。
总之,以后应该没有Data Infra和AI Infra之分了,更多的统一称呼为AI Infra;AI Infra的边界也会扩大,包括传统的操作系统、网络等层面,变成更大范围的AI Infra,一起为上面的大模型和应用,提供数据和计算能力。
应用趋势:
技术上的挑战与机遇:
中国特有的机遇和挑战:
总结:当前处于Data & AI Infra 3.0的初始阶段,即将腾飞。因为以DeepSeek为代表的开源大模型的普及,大模型应用即将爆发,对广大Infra相关的从业者来说都是一个非常好的消息。当然,新时代的变化将会相当剧烈,技术迭代的速度会越来愈快,而且会有更多打破传统边界的创新出来,我们要更快的拥抱变化,不断学习,不断实践,才能在这个风起云涌的时代占据一席之地。
全文结论
Data & AI Infra 的发展永不止步。从奠定数据处理基石的Data Infra 1.0,到实现实时智能化的Data & AI Infra 2.0,再到如今以大模型为核心的Data & AI Infra 3.0,每一次飞跃都伴随着激动人心的变革。站在AI Infra再次起飞的前夜,我们有理由相信,未来的智能世界将更加精彩纷呈,而Data & AI Infra将继续扮演着至关重要的引擎角色。
回顾这段波澜壮阔的演进历程,我深切感受到技术浪潮的澎湃力量以及创新者们的不懈努力。对于我们每一位身处这个时代的参与者而言,这不仅仅是一段值得了解的技术发展史,更蕴藏着无数个人成长的机遇。无论是深耕于数据和AI基础设施领域的工程师、架构师,还是希望借助AI力量赋能业务的各行业人士,亦或是对前沿科技充满好奇的探索者,理解这些变革的脉络和未来的趋势至关重要。
因此,我希望这篇文章不仅能帮助大家梳理Data & AI Infra的发展历程,更能激发大家积极拥抱变化,主动学习和掌握相关技术,洞察新的商业模式和创新方向。抓住AI大模型带来的新一轮技术红利,或许下一个引领行业变革的创新者,就诞生在你们之中。让我们共同迎接这个充满机遇与挑战的智能时代!
微信关注我们
转载内容版权归作者及来源网站所有!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。
Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。
Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。
Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。