国产替代 + 大模型推理优化,AI 产业发展需要强大的基础设施
在人工智能迈向「智算融合」的新时代,大模型凭借其强大的认知与推理能力,正逐步重塑千行百业的智能化图景。然而,大模型推理环节的高算力消耗、高延迟与高能耗问题,成为其规模化落地的关键掣肘。破解这一瓶颈,既需构建高效能、低时延的算力基础设施,也依赖从芯片到应用的全产业链协同创新。
与此同时,在全球化技术博弈与数字化转型的双重驱动下,中国AI产业也正在经历一场从硬件底座到软件生态的"全栈重构"。许多厂商纷纷转入以昇腾(Ascend)计算平台为基础的生态之中。昇腾作为国产AI算力的核心引擎,通过软硬件协同优化与异构计算架构创新,为大模型推理提供了高效能、低时延的部署方案。
随着昇腾在企业中的采用率持续攀升,加之基于其底层基础设施的大模型应用生态日趋完善,OSCHINA邀请某国企人工智能技术负责人,公众号“数学建模岛”主理人熊文韬一起聊了聊关于国产算力替代的真实挑战和基于昇腾的大模型推理优化的几个路径,以期为国产AI技术栈的构建提供可复用的经验样本。
国产化替代并非简单的设备更换,还需生态加持
国产化适配是国企数字化转型中的核心命题。熊文韬介绍,早期项目多采用英伟达GPU架构,但随着昇腾等产品的性能突破,他们逐步构建起基于国产硬件的算力底座,完成在硬件层面临算力基础设施的替代工作。
以昇腾为例,其产业生态正全方位助力企业的国产化替代工作。昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(Compute Architecture for Neural Networks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。
实际上,在许多项目的迁移过程中,国产化替代并非简单设备更换,而是涉及编译链、算子库、分布式通信协议的全栈重构工程。相当于技术选型路径已发生结构性转变:自DPC国产大模型体系发布后,全面转向其技术生态。比如以昇腾平台为例,需重构CUDA算子库为CANN架构,同时开发适配MindSpore的分布式训练方案,最终形成从硬件到框架的完整国产化技术栈。
昇腾的技术开源生态目前相对完整,熊文韬认为,用户可以直接咨询华为的昇腾技术专家进行实际问题的解析,这对开发者来说非常便利。
此外,针对 AI 场景,国产深度学习框架的技术演进路径已形成独特优势。以昇腾生态中的MindSpore为例,可以原生支持昇腾产品的自动微分优化器,通过图算融合技术实现训练效率提升。在国产化政策驱动下,该框架凭借全场景,如端边云的适配能力,正加速向智能制造、智慧城市等领域渗透。
而在构建 AI 应用的过程中,华为技术生态的协同效应同样尤为关键——昇腾AI处理器与MindSpore框架的深度耦合,如CANN异构计算架构,配合DeepSeek大模型的垂直行业解决方案,正在构建从底层硬件到上层应用的完整技术栈。这种端到端自主可控体系,在金融、政务等敏感领域展现出不可替代的部署价值,预计未来三年将覆盖80%以上的关键行业智能化改造项目。
基于稳定的算力设备,加之国内的大模型技术研究也已走在行业前列,便可构建完整的、自主可控的AI软件生态。
效能跃升与场景适配——昇腾平台的大模型推理优化路径
对于大模型的推理优化,熊文韬认为,这是大家普遍面临的问题,无论是昇腾还是其他产品,在处理大模型推理时都会遇到挑战。在不同性能的芯片上,通过框架和算子的优化,可以深入调整生态,实现差异化优化。总体上,这些优化在功能和问题处理上是大同小异的。
当下,企业应用大模型场景多集中在智能客服与交互、数据分析与决策、智能制造优化三大方面。从场景出发来看,基于昇腾算力支持,企业可以实现大模型驱动的智能问答、语义理解,提升客服响应效率与用户体验;在金融、零售等领域,依托昇腾 AI 算力,大模型完成数据挖掘、趋势预测,辅助企业精准决策;此外,制造业借助昇腾平台,通过大模型实现生产流程模拟、质量缺陷检测,推动自动化与智能化升级。
从大模型依赖的软件与硬件来看,首先硬件支撑方面,使用昇腾系列产品,可以提供高算力、高能效比,满足大模型训练与推理的算力需求。软件生态方面,如CANN 异构计算架构,可以优化模型编译、算子调度,提升大模型在昇腾硬件上的执行效率。结合 MindIE 框架,MindIE Service 针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型的高性能推理需求。
熊文韬还总结了影响大模型推理的四大因素:
(1)算力性能:产品的算力规模直接影响大模型推理速度,需通过硬件协同优化释放算力潜力。
(2)算法与框架优化:模型结构设计、MindIE框架的图算融合技术,决定推理过程的效率。
(3)数据质量与预处理:高质量标注数据、高效数据预处理流程,保障大模型推理结果的准确性。
(4)软硬件协同性:比如昇腾 CANN 工具链与硬件的深度适配,可以确保大模型推理时的资源调度与性能释放。
基于此,熊文韬从技术的角度提出了几个大模型推理优化方法理论:量化,即通过降低模型权重和计算精度,例如将浮点数FP32转换为FP16或INT8格式,大幅减少内存占用和计算负担;模型剪枝,去除模型中冗余或贡献较小的神经元连接,分为结构化剪枝和非结构化剪枝;知识蒸馏,大模型蒸馏的核心思想是通过让较小的学生模型模仿较大的教师模型的行为,从而在保留模型性能的前提下,降低计算资源的消耗。
当然,作为业界的基础设施平台和一站式开发者平台,昇腾在大模型推理优化方面也有不少研究。
比如,近期昇腾宣布推出大EP(专家并行)推理解决方案,它通过优化负载均衡、提升并发能力、创新的autoPD分离部署及通信优化等技术,实现了更高性能、更低时延的AI推理。在降低DeepSeek应用门槛的同时,也大幅缩短行业客户迈向大模型应用的周期,可以说真正让大模型应用融入千行万业驶入了“快车道”。
具体而言,昇腾大EP推理方案有四大优势。
一是提升并发能力。通过专家并行优化,昇腾方案显著降低单卡显存占用,并提升单卡并发能力至3倍,使企业能够在相同算力投入下获得更高推理吞吐量。
二是MoE负载均衡。通过自动寻优、自动预测、自动配比等技术,确保专家计算任务的均衡分布,优化推理效率。
三是创新的autoPD分离部署方案。可以自动感知负载变化,动态调整Prefill(预填充)与Decode(解码)实例的资源分配,使系统吞吐量提升50%以上。
四是通信优化与算子融合。采用双流/多维混合并行计算,以及MLAPO融合算子,将计算、通信和权重加载任务优化并行处理,减少计算开销,提高推理速度。
这些技术突破,使昇腾大EP推理方案能够在保证高效推理的同时,大幅降低企业部署成本,为DeepSeek等大模型大规模应用提供更稳定、更经济的AI推理基础设施。
在全球化技术竞争与数字化转型的双重浪潮下,中国AI产业正以昇腾生态为支点,撬动从硬件底座到应用生态的全栈革新。通过技术迁移、框架优化与场景适配,国产算力不仅实现了从“可用”到“好用”的跨越,更在金融、制造、政务等关键领域构筑起自主可控的智能化防线。
未来,随着异构计算架构的持续优化、开源生态的深度共建以及产学研协同创新的深化,国产AI技术栈将突破更多“卡脖子”难题,在算力效能、场景泛化与生态兼容性上实现全面跃升。这场以昇腾为先锋的国产化替代浪潮,不仅是技术路径的重构,更是中国在全球AI竞赛中从“跟跑”到“并跑”的关键一跃——当算力底座与创新生态共振,中国AI产业的星辰大海,正在基础设施的坚实支撑下徐徐展开。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
从本地部署、推理加速到产业落地,昇腾AI基础设施驱动全栈技术升级
2025年,AI 技术加速向实体经济渗透,而昇腾作为国产 AI 基础设施的核心力量,正通过技术创新与生态协同,推动大模型从实验室走进千行百业。在近期 OSCHINA 举办的一场昇腾技术直播中,多位行业专家与开发者分享了昇腾在推理加速、行业落地及本地化部署中的实践成果,揭示了昇腾如何以全栈能力打破技术壁垒,成为 AI 普惠时代的核心引擎。 本地部署:香橙派联合昇腾,降低大模型部署使用门槛 当大模型从"炼丹炉"走向生产线,算力成本与部署门槛正成为制约行业落地的双重枷锁。尤其是在金融、能源、政务等数据敏感行业,出于对隐私安全的刚性需求,企业也需要本地化部署大模型并应用在实际业务场景中。 这一难题下,香橙派基于昇腾推出的 OPi AI Studio Pro 开发套件,以352 TOPS INT8算力、分钟级硬件连接和开源工具链闭环,直击大模型本地落地的三大症结:高成本、高门槛、弱适配。其意义不仅在于技术参数的突破,更是为行业提供了一条“从实验室到生产线”的平民化路径。 香橙派系统工程师徐洋帆介绍了基于昇腾 AI 处理器的 OPi AI Studio Pro 开发套件的技术细节与应用实践。OPi...
- 下一篇
MCP会被谷歌的 A2A“吃掉”吗?
MCP (Model Context Protocol)作为连接大模型与外部工具的通信协议,近期因谷歌推出A2A(Agent-to-Agent)协议引发争议。 MCP 凭借其简洁的设计和 OpenAI 等巨头的支持,迅速成为大模型与外部工具交互的事实标准。其核心价值在于解决了两个关键问题:一是标准化接口:将工具能力封装为统一的函数描述(如 API 格式、参数定义),降低模型调用复杂度;二是上下文管理:通过动态维护工具调用记录,辅助大模型生成连贯的操作链条。 这种“模型中心化”的设计思路,使其在开发者中广受欢迎。然而,随着谷歌推出A2A协议,MCP 的“护城河”开始遭遇挑战。 MCP 能否抵御谷歌 A2A 的生态攻势?不久前,开源中国举行了一场以 “全网爆火的 MCP 到底是啥?” 为主题的直播,业内专家对这个问题进行了讨论。 谷歌的生态围剿:A2A 的“包裹战术” 谷歌的入局让战局陡然升温。A2A出现之后,MCP自身的定位成为关键:它是想变成A2A体系下的附属品,还是说它也想升到和A2A平级的位置? A2A 协议直指智能体(Agent)间的高阶协作场景。Bytebase联合创始人兼CE...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境