昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地
百度智能云混合云联合昆仑芯、HAMi(密瓜智能发起并主导的 CNCF 开源项目),正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地,为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源,让国产算力既高效匹配业务需求,又实现资源的最大化利用。
1. XPU/vXPU 双模式调度方案,把集群中的昆仑芯 P800 算力用透
百度智能云联合 HAMi,基于昆仑芯 P800 构建「XPU 整卡 + vXPU 虚拟化」双模式资源调度体系:XPU 整卡模式通过拓扑寻优调度与健康度评估,实现「多卡单任务」的最优资源调度,保障大规模训练性能和稳定性,并避免资源碎片化;vXPU 虚拟化模式以多规格切分支持「单卡多任务」,最大化资源利用率,灵活适配推理、开发等轻量化场景。双模式协同发力,让昆仑芯 P800 的每一份算力「算尽其用」,为各类 AI 业务提供高效算力支撑。
XPU 整卡模式:拓扑寻优调度 + 集群健康度评估,保障大规模训练性能与集群稳定
在多卡训练等通信性能敏感场景中,调度策略直接决定集群长期可用性与性能稳定性。基于昆仑芯 P800 的物理拓扑特性,方案通过两层逻辑保障整卡模式的「高性能和高稳定性」。
其一,系统自动识别昆仑芯服务器「左右侧翼」物理分区,优先在单侧翼内调度资源,减少跨侧翼通信开销的同时,避免资源零散占用。
其二,当多个节点都能满足需求时,系统会评估调度前后对节点整体结构的影响,优先选择能保持或改善拓扑规整度的节点,留存更多完整拓扑单元,降低后续调度失败或回填导致的性能波动。
凭借「节点内拓扑寻优调度+集群内健康度评估」,运维团队不再需要频繁人工干预去「手动拼卡」,大模型训练可获得稳定通信性能,集群资源利用更紧凑。
vXPU 虚拟化模式:多粒度切分 + 显存自动对齐,用透每一分算力,简化管理难度
针对推理、开发测试、模型验证等轻量化任务的细粒度算力需求,vXPU 虚拟化模式为昆仑芯 P800 打造了「算力精准切分 + 便捷管理」的解决方案。
该模式支持多任务共享单张昆仑芯 P800 显卡,提供 1/4 卡(24GB 显存)、1/2 卡(48GB 显存)两种切分规格。实际使用中,用户仅需声明所需显存,系统便会自动向上匹配最优切分规格 —— 如申请 20GB 显存时,系统自动分配 24GB 规格,无需用户手动换算,大幅降低操作成本。
同时,为避免实例间干扰,方案引入「同规格共享」机制 —— 同一物理卡仅允许相同规格的虚拟实例共享,进一步简化了资源隔离与管理复杂度。
UUID 精准控卡:自动化打底,人工补位,特殊场景不「卡壳」
依托整卡模式的拓扑寻优调度、vXPU 虚拟化模式的显存自动对齐等自动化能力,日常算力调度已实现少干预甚至无干预。针对灰度测试、硬件问题复现等特殊场景,方案预留「人工调节通道」 —— 运维人员只需指定物理卡 UUID,即可直接选定或排除特定卡片。比如灰度发布新模型时,无需调动全量资源,指定部分卡片即可完成测试验证;硬件故障复现时,也能精准定位问题卡片进行调试,无需整机下线。
通过系统自动化调度与人工手动调节的结合,面对大模型训练、推理与开发等复杂场景,既能保障日常调度效率,又具备「因地制宜」的算力管理灵活性,轻松化解运维难题。
2. 结语
XPU/vXPU 双模式协同调度方案在金融行业的落地,是百度智能云混合云联合 HAMi 在国产 AI 硬件调度领域的重要实践 —— 既验证了「场景驱动调度策略」的技术创新价值,也展现了开源生态与企业服务结合的落地能力。
如需了解昆仑芯 P800 虚拟化完整方案,可参考项目文档:https://github.com/Project-HAMi/HAMi/blob/master/docs/kunlun-vxpu-support_cn.md
- - - - - - - - - - END - - - - - - - - - -
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Konveyor 0.8.0 发布
Konveyor 0.8.0 现已发布,带来了强大的新功能、更流畅的用户体验和更深入的平台感知。具体更新内容包括: Konveyor AI 增强 Konveyor AI(Kai)作为 Konveyor 的 AI 驱动组件,持续进化,新增多项功能: 解决方案服务器 新增的解决方案服务器作为现代化的“知识库”,能捕捉并复用迁移经验,团队不必每次都从零开始,确保项目间现代化指导更一致、更准确、更具扩展性。 改进的用户体验(UX) 优化了整个扩展的用户体验,重点让 Kai 更轻量、更自然地融入开发者工作流。 Agentic 工作流 本次发布引入了对 agent 驱动工作流的早期支持。该工作流允许 Kai 利用额外工具和 IDE 诊断信息,在初步建议应用后检测并修复更多问题,开启更丰富、更自动化的现代化流程,同时保持开发者掌控。 IDE 扩展市场发布 Konveyor IDE 扩展现已上线Visual Studio Code Marketplace。 平台感知与资产生成 0.8.0 支持平台感知和资产生成。平台感知让用户能在应用库存中关联源平台和目标平台,支持直接导入和发现源平台的应用。本版本支...
-
下一篇
DBeaver 25.2.4 发布
DBeaver 是一个免费开源的通用数据库工具,适用于开发人员和数据库管理员。DBeaver 25.2.4 已发布,具体更新内容如下: Data Editor: 在 macOS 上,高级复制的默认快捷键(之前的设置)已更改为 CTRL+SHIFT+4 新增了禁用数字标识符列格式化的选项 SQL Editor:新增对语义分析中临时表的支持 AI 助手:新增了对 DBeaver 无法识别的有效 SQL 查询类型的确认 Data Transfer:在 backup/restore wizards 中添加了连接和数据库信息 Connectivity:修复了无法删除网络配置文件的问题 其他: 修复了在 Windows 系统上用户名包含非 ASCII 字符时发生的崩溃问题 修复了用户在使用其他应用程序时通知会抢占 focus 的问题 新增了从 DataGrip 导入连接的功能 Databases: ClickHouse:改进了数据编辑器中数组数据类型的显示 DuckDB:修复了断开连接后目录选择丢失的问题 Oracle:现在非管理员用户也可以访问“权限”选项卡 SQLite:修复了使用简写语法创建...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- 2048小游戏-低调大师作品
- SpringBoot2整合Thymeleaf,官方推荐html解决方案


微信收款码
支付宝收款码