您现在的位置是：首页 > 文章详情

从本地部署、推理加速到产业落地，昇腾AI基础设施驱动全栈技术升级

日期：2025-05-13点击：263收藏

2025年，AI 技术加速向实体经济渗透，而昇腾作为国产 AI 基础设施的核心力量，正通过技术创新与生态协同，推动大模型从实验室走进千行百业。在近期 OSCHINA 举办的一场昇腾技术直播中，多位行业专家与开发者分享了昇腾在推理加速、行业落地及本地化部署中的实践成果，揭示了昇腾如何以全栈能力打破技术壁垒，成为 AI 普惠时代的核心引擎。

本地部署：香橙派联合昇腾，降低大模型部署使用门槛

当大模型从"炼丹炉"走向生产线，算力成本与部署门槛正成为制约行业落地的双重枷锁。尤其是在金融、能源、政务等数据敏感行业，出于对隐私安全的刚性需求，企业也需要本地化部署大模型并应用在实际业务场景中。

这一难题下，香橙派基于昇腾推出的 OPi AI Studio Pro 开发套件，以352 TOPS INT8算力、分钟级硬件连接和开源工具链闭环，直击大模型本地落地的三大症结：高成本、高门槛、弱适配。其意义不仅在于技术参数的突破，更是为行业提供了一条“从实验室到生产线”的平民化路径。

香橙派系统工程师徐洋帆介绍了基于昇腾 AI 处理器的 OPi AI Studio Pro 开发套件的技术细节与应用实践。OPi AI Studio Pro 是基于2个昇腾 AI 处理器的新一代高性能推理解析卡，提供352 TOPS INT8的计算能力。提供了96GB 和192GB 两个内存版本可选。产品融合了通用计算、AI Core、编解码于一体，可广泛应用于 OCR 识别、目标识别、搜索推荐、内容审核、智慧城市、智慧交通、智慧园区等诸多 AI 应用场景。

部署 OPi AI Studio Pro 的硬件门槛极低。用户只需通过附赠的 USB4线缆，将其与x86 PC的USB4或雷电4接口相连，随后启动设备电源即可。这一设计大幅降低了传统AI加速卡的部署复杂度，让开发者能快速调用算力资源。软件环境搭建分为三个核心环节，全程可参考官方手册“抄作业”。

同时，全球开发者生态正加速向开源化演进。香橙派依托迅龙软件，业务覆盖100多个国家和地区，涵盖开源硬件、开源软件、配套视频、论坛社区的完整开源教育生态圈。这与昇腾的 MindIE Docker 镜像、预训练模型形成合力，构建从硬件连接到模型部署的一站式工具链。

从硬件连接、环境配置到模型推理，OPi AI Studio Pro 的实践路径清晰印证了一个趋势：AI 技术正加速走向平民化。而香橙派与昇腾的合作，通过降低开发门槛、完善开源生态，为业务团队甚至个人开发者提供了大模型部署与实践的另一种可能。

推理创新：昇腾插件化接入 vLLM，解锁大模型推理“加速度”

在大模型的应用过程中，推理环节至关重要。AI 训练是通过大量数据学习 “规则” 形成模型算法，而 AI 推理则是利用训练好的 “规则” 完成具体任务。在众多推理框架中，vLLM 表现出色。与其他框架相比，vLLM 在每秒生成 Token 数、查询数以及延迟等关键指标上具有优势，这使得它在大模型推理中备受关注。

昇腾凭借其全栈技术能力，通过插件化接入 vLLM，加速大模型推理创新，为大模型推理效率树立新标杆。华为云 HCDE、昇腾 CANN 优秀开发者姚圣伟详解了昇腾如何以“软硬协同”释放极致性能，推动大模型推理创新。

昇腾作为全场景的人工智能平台，实现了全栈自主创新，包含从端到边再到云的系列硬件，如 Atlas 及伙伴系列硬件。同时，昇腾 AI 平台以异构计算架构 CANN 为核心，构建起开放易用的技术生态，CANN 向上提供统一编程接口和友好开发体系，支持用户快速构建 AI 应用；向下使能处理器并行加速，释放硬件性能。此外，昇腾还有全流程开发工具链、管理运维工具以及丰富的应用使能和开源框架，能满足不同开发者的需求，加速应用落地和科研创新。其推理引擎 MindIE 通过分层开放 AI 能力，支撑用户多样化的 AI 业务需求，使能百模千态，释放昇腾硬件设备算力。向上支持多种主流 AI 框架，向下对接不同类型昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。

2025年2月20日，经过 vLLM 社区与昇腾的持续合作和共同努力，vLLM 开源社区已官方支持昇腾。基于硬件插件化能力，昇腾率先完成了端到端适配，成为了官方认可的正式硬件后端，并创建 vLLM Ascend 这一社区维护的官方项目。这意味着用户可直接在昇腾上无缝运行 vLLM，开发者可通过 vLLM 调用昇腾进行模型适配。

vLLM Ascend 项目主要完成了以下几方面的工作：

实现了昇腾可用的 Worker、ModelRunner、Attention以及Communicator 等模块，端到端打通 vLLM 原生支持昇腾的能力。

编写并优化针对昇腾硬件的高性能算子、执行策略、通信逻辑，提高 vLLM 在昇腾上的性能。

与 vLLM 主干保持持续兼容和持续可用，实时跟随 vLLM 的版本节奏，密切配套 vLLM 开箱即用。

建立了基于昇腾的 CI 看护机制、提供了开箱即用的容器镜像并撰写了详细的使用文档。

不过，由于 vLLM 中的多样性，比如支持100+主流大模型架构，集成23种量化压缩算法等特性，在推动社区繁荣的同时，也带来了维护复杂度指数级增长的问题。传统单体架构面临硬件适配冲突、算子版本兼容、调度策略碰撞等诸多挑战。

为解决多样化算力的可扩展性、可维护性的问题，昇腾提出了全新的解耦方式，通过 Python 的 Entry Point 机制，实现动态加载接入多样性算力。在此机制下，用户可通过实现硬件强相关的 Worker、ModelRunner、Attention、Communicator 等模块，以零侵入、用户无感的方式加载并运行。该设计将硬件差异封装在平台插件内部，实现核心框架与硬件解耦。

产业落地：从技术优势到业务效率的跃升

在 AI 大模型浪潮下，国产化技术正加速渗透产业场景。唐山爱尚网科技有限公司产品总监李小雨以“基于昇腾大模型的国内智慧园区项目实践”为主题，揭示了国产大模型如何从技术优势转化为业务效率的跃升。

区别于传统 AI 开发的“自建地基”模式，昇腾大模型以“开箱即用”的特性，显著降低了企业应用门槛。基于昇腾与昇思 MindSpore 框架构建的国产化生态，其性能稳定且部署灵活，兼容国产算力环境，成为政企客户在安全合规与私有化部署需求下的首选方案。目前，昇腾大模型已在文本问答、事件智能处理、图像识别等场景中实现规模化落地。

李小雨指出，大模型正将AI从“单点工具”升级为“业务核心引擎”。企业可通过“三步走”方法论快速实现价值：快速试点，聚焦痛点场景验证效果；能力平台化，跨部门复用模型能力以降低成本；业务流程重构，以 AI 原生思维重塑管理逻辑。

李小雨介绍，智慧园区项目在系统集成复杂、AI 提效空间巨大的背景中启动。通过基于昇腾的技术与生态支持，最终在智慧园区场景中，实现了三大核心提效：一是体验提效，从“流程控制”走向“语义理解”，传统流程（如访客预约需填表审批）被自然语言交互取代，一句“我想访问张经理”即可自动联动系统；二是决策提效，从“数据展示”走向“数据理解”，比如从“人工分析Excel”转向“AI生成通勤热力图”，运营响应时间可以大幅压缩；三是主动运营，从“功能堆叠”走向“行为预测”，比如系统通过行为信号（如考勤异常、非通勤出入）自动触发预警或生成通报，实现“感知-识别-行动”闭环。

“以前是人在适应系统，现在系统能主动适应管理需求。”李小雨强调，昇腾大模型的价值并非替代人力，而是重构企业与系统的协作方式。大模型带来的，不是某一环节的提效，而是整体体验上的顺滑与协调。通过合理融入业务流程，它逐步成为系统的一部分，而非外挂功能。

当然，还有一些问题需要优化，比如企业仍需算清“算力、数据、成本”三本账。AI 落地是一项系统工程，需同步解决数据治理、流程整合与人才结构问题。

未来，AI 将走向“多智能体协同”阶段。通过MCP（模型协同协议）与A2A（应用间协作协议），企业可构建统一的“模型中控平台”，实现跨模型调度与能力网络编排，最终推动系统从“功能堆叠”升级为“原生 AI 驱动”的智能体生态。

通过昇腾 AI 全栈技术的持续突破与生态协同，大模型在产业场景中的落地路径已逐渐清晰。从 OPi AI Studio Pro 的低门槛硬件部署到 vLLM 框架的插件化适配，昇腾生态通过开源工具链和分层开放架构，实现了算力资源的高效调用与模型推理的跨平台兼容。此外，当前实践也表明，AI 技术落地需要同步解决硬件算力优化、框架适配升级与业务流程重构三个维度的挑战。未来产业智能化将深化发展，而昇腾技术体系的技术积淀与开放生态，也正为构建原生 AI 驱动的智能应用提供了基础支撑。