HeteroFlow v2 企业版
异构算力统一调度平台 — 让每一张国产 GPU 都物尽其用
为什么选择 HeteroFlow?
在国产 GPU 快速发展的今天,数据中心面临着前所未有的挑战:摩尔线程、海光、寒武纪、昇腾、壁仞、昆仑芯……品牌众多、架构各异,每一家都有独立的驱动和管理工具。算力碎片化、资源利用率低、运维成本高企,已经成为行业普遍痛点。
HeteroFlow v2 企业版,正是为解决这一问题而生。
我们提供一套统一的异构算力调度平台,一张面板纳管所有 GPU,一套调度引擎分配所有算力,一条命令部署所有节点。
核心能力总览
--------------*
-
多 GPU 异构纳管 * 8 种国产/国际 GPU 统一管理 *
-
GPU 分片调度 * 硬件级隔离,一张卡当多张用 *
-
智能任务调度 * 多策略调度引擎,QoS 三级保障 *
-
Agent 一键部署 * 30 秒远程上线,零配置接入 *
-
插件化架构 * 按需扩展,资源过滤/日志审计/拓扑感知 *
-
全链路监控 * GPU/CPU/内存/网络实时指标 + 告警 *
-
企业级安全 * JWT 认证、RBAC 权限、CORS 防护 *
-
多集群管理 * 跨集群资源统一视图 *
一、异构 GPU 统一纳管
支持 8+ 种 GPU 架构
HeteroFlow 原生支持主流国产 GPU 和国际 GPU,无需适配即可接入调度:
---------------------------------*
-
摩尔线程 * MUSA * mthreads-gmi * vGPU *
-
海光 * DCU * hy-smi * HAMi *
-
寒武纪 * MLU * cnmon * VMLU *
-
壁仞 * BR * birensmi * — *
-
华为昇腾 * NPU * npu-smi * VNP *
-
百度昆仑 * XPU * xpu-smi * — *
-
AMD * ROCm * rocm-smi * — *
-
NVIDIA * CUDA * nvidia-smi * MIG / MPS *
自动硬件检测
Agent 部署后自动识别节点 GPU 类型、型号、显存、驱动版本,无需手动配置。支持混合 GPU 节点(同一台机器多种 GPU 并存)。
统一资源抽象
不同 GPU 的算力、显存、拓扑结构被抽象为统一的资源模型,上层调度器无需关心底层硬件差异。
二、GPU 分片调度
三级 QoS 保障
--------------------------------*
-
Gold * 硬件隔离 (MIG/vGPU) * 高性能推理、独占训练 * 最高 *
-
Silver * 驱动虚拟化 (MPS/HAMi) * 中等隔离需求、共享推理 * 中等 *
-
Bronze * 软件分片 * 开发测试、离线批处理 * 最低 *
显存精细化管理
-
按固定 MB 分配显存,精确到每一路 GPU
-
支持显存碎片分析与自动整理
-
分片状态实时监控(已分配/空闲/碎片化)
算力配额控制
-
计算比例设置(10%~100%)
-
GPU 数量与显存解耦,灵活组合
-
超分策略支持(企业版)
三、智能任务调度
多策略调度引擎
通过可插拔的调度插件组合,实现多种调度策略:
------------------
-
BinPack * 装箱算法 * 最大化单节点资源利用率 *
-
Spread * 分散调度 * 任务均匀分布到各节点 *
-
Topology * 拓扑感知 * 优化 NVLink/NUMA 亲和性 *
-
Preempt * 抢占调度 * 高优先级任务可抢占低优先级 *
-
Resource Filter * 资源过滤 * 按显存、GPU 数量精确匹配 *
-
GPU Filter * GPU 类型过滤 * 指定 GPU 品牌或型号调度 *
-
RDMA * RDMA 感知 * 优化 InfiniBand 高速互联任务 *
任务全生命周期管理
提交 → 排队 → 调度 → 执行 → 完成
↓
失败重试 / 超时取消
-
任务优先级设置
-
超时自动取消
-
失败自动重试
-
资源预留与释放
任务创建向导
通过 Web 界面快速创建任务,支持:
-
GPU 类型选择
-
显存需求指定
-
GPU 数量设定
-
镜像/命令配置
-
标签与优先级
四、Agent 一键部署
30 秒远程上线
# 一条命令完成所有部署
curl -fsSL http://your-server:5173/deploy-agent-all-in-one.sh * bash
All-in-One 部署脚本自动完成:
-
系统环境检测(OS、内核、依赖)
-
GPU 驱动检测(自动识别 8 种 GPU)
-
Agent 下载与安装
-
配置生成与服务注册
-
健康检查与上线验证
Agent 核心能力
------------*
-
硬件检测 * 自动识别 GPU 类型、显存、驱动版本 *
-
心跳上报 * 定时向 Server 汇报节点状态与资源 *
-
任务执行 * 接收调度指令,执行 GPU/CPU 任务 *
-
指标采集 * 实时采集 CPU/内存/GPU/网络/磁盘指标 *
-
GPU 分片 * 本地 GPU 分片管理与隔离 *
-
远程管理 * 支持远程配置更新、日志收集、状态查询 *
部署方式
------------*
-
二进制部署 * 最简单,单文件直接运行 *
-
Docker 部署 * 容器化隔离,适合标准化环境 *
-
Docker Compose * 多服务编排,一键拉起 *
-
Windows Agent * 支持 Windows 节点接入 *
五、插件化架构
HeteroFlow 采用可插拔的插件架构,核心调度器与业务逻辑解耦:
┌─────────────────────────────────────────┐
│ 调度引擎核心 │
├─────┬─────┬──────┬──────┬───────┬──────┤
│Bin │Spread│Topo │Preempt│Resource│ GPU │
│Pack │ │logy │ │ Filter │Filter│
├─────┴─────┴──────┴──────┴───────┴──────┤
│ 插件配置 (权重/启停) │
└─────────────────────────────────────────┘
内置插件
-
BinPack — 装箱调度,最大化利用率
-
Spread — 分散调度,负载均衡
-
Topology — 拓扑感知,NVLink/NUMA 优化
-
Preempt — 抢占调度,三级模式(禁用/仅排队/可抢占运行中)
-
Resource Filter — 资源过滤器,显存/GPU 数量精确匹配
-
GPU Filter — GPU 类型过滤
-
RDMA — RDMA/InfiniBand 感知调度
-
日志审计 — 全链路操作日志记录
插件管理
-
通过 Web 界面查看所有插件状态
-
支持按权重排序优先级
-
支持启用/禁用单个插件
-
支持自定义插件开发(Go 接口)
六、全链路监控与告警
实时监控仪表盘
Dashboard 一屏展示集群全局状态:
-
GPU 总量 / 在线 / 繁忙
-
可用显存统计
-
分片利用率
-
节点在线率
-
任务完成率
-
系统健康状态
节点级监控
对每个节点提供细粒度监控:
--------------------
支持 1 小时 / 6 小时 / 24 小时 / 3 天 / 7 天多时间维度查看。
智能告警系统
-------------------------
告警处理流程:
ACTIVE(触发) → ACKNOWLEDGED(已确认) → RESOLVED(已解决)
日志审计
结构化日志系统,支持:
七、企业级安全
认证与授权
----------------*
用户管理
-
用户注册与登录
-
用户列表与权限管理
-
操作审计日志
-
密码安全管理
八、Web 管理平台
基于 React + Vite 构建的现代化管理界面,所有功能开箱即用:
------------*
-
仪表盘 * 集群全局概览、GPU 统计、健康状态 *
-
节点管理 * 节点注册、状态监控、GPU 资源查看 *
-
节点监控 * CPU/内存/GPU/磁盘/网络实时曲线 *
-
任务管理 * 任务列表、状态筛选、创建与取消 *
-
GPU 分片 * 分片列表、QoS 管理、碎片分析 *
-
告警管理 * 告警规则、告警列表、确认与解决 *
-
插件管理 * 插件状态、配置调整、优先级排序 *
-
集群管理 * 多集群注册与监控 *
-
日志查看 * 模块化日志搜索与过滤 *
-
用户管理 * 用户注册、权限分配 *
九、企业版专属能力
------------*
-
多租户隔离 * 部门/项目级资源隔离与配额管理 *
-
高可用 * Master 主从集群,自动故障切换 *
-
可观测性集成 * Prometheus + OpenTelemetry + Grafana *
-
多集群管理 * 跨集群资源池化与统一调度 *
-
DAG 工作流 * 复杂多阶段任务编排 *
-
用量计费 * 按资源使用量计费模型 *
-
超分策略 * GPU 显存超分分配,提升利用率 *
-
Gang 调度 * 多任务协同启动,保证原子性 *
技术架构
┌─────────────────────────────────────────────────┐
│ Web 管理平台 │
│ (React + TypeScript + Vite) │
├─────────────────────────────────────────────────┤
│ RESTful API 网关 │
│ (认证 / 鉴权 / CORS / 限流) │
├─────────────────────────────────────────────────┤
│ 调度引擎 + 插件系统 │
│ (BinPack / Spread / Topology / Preempt) │
├──────────┬──────────┬──────────┬────────────────┤
│ 任务管理 │ GPU 分片 │ 告警引擎 │ 日志审计 │
├──────────┴──────────┴──────────┴────────────────┤
│ 数据存储层 │
│ (PostgreSQL / SQLite) │
├─────────────────────────────────────────────────┤
│ Agent 通信层 │
│ (gRPC / HTTP / 心跳) │
├────────┬────────┬────────┬────────┬─────────────┤
│Agent-1 │Agent-2 │Agent-3 │ ... │ Agent-N │
│ NVIDIA │ 摩尔线程│ 昇腾 │ 海光 │ 寒武纪 ... │
└────────┴────────┴────────┴────────┴─────────────┘
技术栈
---------------*
-
后端 * Go *
-
前端 * React 18 + TypeScript + Vite *
-
数据库 * PostgreSQL / SQLite *
-
部署 * Docker / Docker Compose / 裸金属 *
-
通信 * HTTP RESTful + 心跳 *
经过验证的稳定性
------------*
-
压测任务数 * 1,198 *
-
成功完成率 * 98.3% *
-
服务崩溃次数 * 0 *
-
持续运行时间 * 9 小时+ *
-
GPU 类型覆盖 * 8 种 *
-
分片任务验证 * 通过 *
快速开始
一键部署
# 1. 部署 Server
./manage-services.sh start all
# 2. 在 Worker 节点一键部署 Agent
curl -fsSL http://your-server:5173/deploy-agent-all-in-one.sh * bash
访问
-
管理界面:http://your-server:5173
-
API 接口:http://your-server:3333/api/v1/
-
健康检查:http://your-server:3333/health
开源地址
Gitee: https://gitee.com/heteroflow/HeteroFlow
关于我们
HeteroFlow 致力于打造国产异构算力调度的基础设施,让每一种 GPU 架构都能被高效管理和利用,助力国产 GPU 生态发展。
HeteroFlow — 让每一张国产 GPU 都物尽其用