HAMi × 沐曦 MetaX sGPU 共享、三档 QoS、拓扑智能调度与 WebUI 全面适配
近日,密瓜智能团队与沐曦 MetaX 团队紧密合作,基于曦云C系列产品,在 HAMi v2.7.0 版本中联合推出了统一调度方案。该方案通过深度整合,实现了 sGPU 共享、三档 QoS、拓扑智能调度与 WebUI 全面适配,旨在大幅提升大规模 AI 训练与推理场景下的资源利用率与任务执行效率,为构建国产自主可控的 AI 算力底座提供了坚实支持。 HAMi v2.7.0 版本为沐曦 MetaX GPU 提供了统一的调度方案。本文将在功能介绍的基础上,深入代码实现,详细剖析 HAMi 在支持 MetaX sGPU 共享、拓扑感知调度、QoS 策略等核心功能时的具体设计与实现原理。 一、 核心特性总览 HAMi 为沐曦 MetaX GPU 提供了一套完整的虚拟化和调度优化方案,其核心特性包括: GPU 共享 (sGPU) 与资源隔离: 允许多个容器任务共享同一张物理 GPU 卡,并通过精确限制每个任务的显存(如 4G)与计算核心比例(vcore, 如 60%)来实现资源隔离,从而显著提高资源利用率。 sGPU 拓扑感知调度: (v2.7.0 新增) 针对单机多卡的场景,调度器能动态感知 ...