HeteroFlow 异构算力调度平台

2026-04-15 159

HeteroFlow v2 企业版

异构算力统一调度平台 — 让每一张国产 GPU 都物尽其用

为什么选择 HeteroFlow？

在国产 GPU 快速发展的今天，数据中心面临着前所未有的挑战：摩尔线程、海光、寒武纪、昇腾、壁仞、昆仑芯……品牌众多、架构各异，每一家都有独立的驱动和管理工具。算力碎片化、资源利用率低、运维成本高企，已经成为行业普遍痛点。

HeteroFlow v2 企业版，正是为解决这一问题而生。

我们提供一套统一的异构算力调度平台，一张面板纳管所有 GPU，一套调度引擎分配所有算力，一条命令部署所有节点。

核心能力总览

能力域 * 说明 *

--------------*

多 GPU 异构纳管 * 8 种国产/国际 GPU 统一管理 *
GPU 分片调度 * 硬件级隔离，一张卡当多张用 *
智能任务调度 * 多策略调度引擎，QoS 三级保障 *
Agent 一键部署 * 30 秒远程上线，零配置接入 *
插件化架构 * 按需扩展，资源过滤/日志审计/拓扑感知 *
全链路监控 * GPU/CPU/内存/网络实时指标 + 告警 *
企业级安全 * JWT 认证、RBAC 权限、CORS 防护 *
多集群管理 * 跨集群资源统一视图 *

一、异构 GPU 统一纳管

支持 8+ 种 GPU 架构

HeteroFlow 原生支持主流国产 GPU 和国际 GPU，无需适配即可接入调度：

品牌 * 架构 * 检测方式 * 虚拟化技术 *

---------------------------------*

摩尔线程 * MUSA * mthreads-gmi * vGPU *
海光 * DCU * hy-smi * HAMi *
寒武纪 * MLU * cnmon * VMLU *
壁仞 * BR * birensmi * — *
华为昇腾 * NPU * npu-smi * VNP *
百度昆仑 * XPU * xpu-smi * — *
AMD * ROCm * rocm-smi * — *
NVIDIA * CUDA * nvidia-smi * MIG / MPS *

自动硬件检测

Agent 部署后自动识别节点 GPU 类型、型号、显存、驱动版本，无需手动配置。支持混合 GPU 节点（同一台机器多种 GPU 并存）。

统一资源抽象

不同 GPU 的算力、显存、拓扑结构被抽象为统一的资源模型，上层调度器无需关心底层硬件差异。

二、GPU 分片调度

三级 QoS 保障

等级 * 隔离方式 * 适用场景 * 优先级 *

--------------------------------*

Gold * 硬件隔离 (MIG/vGPU) * 高性能推理、独占训练 * 最高 *
Silver * 驱动虚拟化 (MPS/HAMi) * 中等隔离需求、共享推理 * 中等 *
Bronze * 软件分片 * 开发测试、离线批处理 * 最低 *

显存精细化管理

按固定 MB 分配显存，精确到每一路 GPU
支持显存碎片分析与自动整理
分片状态实时监控（已分配/空闲/碎片化）

算力配额控制

计算比例设置（10%~100%）
GPU 数量与显存解耦，灵活组合
超分策略支持（企业版）

三、智能任务调度

多策略调度引擎

通过可插拔的调度插件组合，实现多种调度策略：

插件 * 策略 * 说明 *

------------------

BinPack * 装箱算法 * 最大化单节点资源利用率 *
Spread * 分散调度 * 任务均匀分布到各节点 *
Topology * 拓扑感知 * 优化 NVLink/NUMA 亲和性 *
Preempt * 抢占调度 * 高优先级任务可抢占低优先级 *
Resource Filter * 资源过滤 * 按显存、GPU 数量精确匹配 *
GPU Filter * GPU 类型过滤 * 指定 GPU 品牌或型号调度 *
RDMA * RDMA 感知 * 优化 InfiniBand 高速互联任务 *

任务全生命周期管理


提交 → 排队 → 调度 → 执行 → 完成

                ↓

            失败重试 / 超时取消

任务优先级设置
超时自动取消
失败自动重试
资源预留与释放

任务创建向导

通过 Web 界面快速创建任务，支持：

GPU 类型选择
显存需求指定
GPU 数量设定
镜像/命令配置
标签与优先级

四、Agent 一键部署

30 秒远程上线


# 一条命令完成所有部署

curl -fsSL http://your-server:5173/deploy-agent-all-in-one.sh * bash

All-in-One 部署脚本自动完成：

系统环境检测（OS、内核、依赖）
GPU 驱动检测（自动识别 8 种 GPU）
Agent 下载与安装
配置生成与服务注册
健康检查与上线验证

Agent 核心能力

能力 * 说明 *

------------*

硬件检测 * 自动识别 GPU 类型、显存、驱动版本 *
心跳上报 * 定时向 Server 汇报节点状态与资源 *
任务执行 * 接收调度指令，执行 GPU/CPU 任务 *
指标采集 * 实时采集 CPU/内存/GPU/网络/磁盘指标 *
GPU 分片 * 本地 GPU 分片管理与隔离 *
远程管理 * 支持远程配置更新、日志收集、状态查询 *

部署方式

方式 * 说明 *

------------*

二进制部署 * 最简单，单文件直接运行 *
Docker 部署 * 容器化隔离，适合标准化环境 *
Docker Compose * 多服务编排，一键拉起 *
Windows Agent * 支持 Windows 节点接入 *

五、插件化架构

HeteroFlow 采用可插拔的插件架构，核心调度器与业务逻辑解耦：


┌─────────────────────────────────────────┐

│              调度引擎核心                  │

├─────┬─────┬──────┬──────┬───────┬──────┤

│Bin  │Spread│Topo  │Preempt│Resource│ GPU │

│Pack │      │logy  │      │ Filter │Filter│

├─────┴─────┴──────┴──────┴───────┴──────┤

│          插件配置 (权重/启停)              │

└─────────────────────────────────────────┘

内置插件

BinPack — 装箱调度，最大化利用率
Spread — 分散调度，负载均衡
Topology — 拓扑感知，NVLink/NUMA 优化
Preempt — 抢占调度，三级模式（禁用/仅排队/可抢占运行中）
Resource Filter — 资源过滤器，显存/GPU 数量精确匹配
GPU Filter — GPU 类型过滤
RDMA — RDMA/InfiniBand 感知调度
日志审计 — 全链路操作日志记录

插件管理

通过 Web 界面查看所有插件状态
支持按权重排序优先级
支持启用/禁用单个插件
支持自定义插件开发（Go 接口）

六、全链路监控与告警

实时监控仪表盘

Dashboard 一屏展示集群全局状态：

GPU 总量 / 在线 / 繁忙
可用显存统计
分片利用率
节点在线率
任务完成率
系统健康状态

节点级监控

对每个节点提供细粒度监控：

指标 * 说明 * 可视化 *

--------------------

CPU 利用率 * 实时 + 趋势图 * 折线图 *
内存使用 * 已用/总量 + 趋势 * 折线图 *
GPU 利用率 * 每卡独立指标 * 折线图 *
GPU 显存 * 每卡显存占用 * 折线图 *
磁盘 I/O * 读写速率 * 折线图 *
网络 I/O * 上行/下行带宽 * 折线图 *

支持 1 小时 / 6 小时 / 24 小时 / 3 天 / 7 天多时间维度查看。

智能告警系统

告警类型 * 触发条件 * 级别 *

-------------------------

GPU 高负载 * GPU 利用率超过阈值 * WARN / ERROR *
显存不足 * 显存使用率超过阈值 * WARN / ERROR *
任务失败 * 任务执行失败 * ERROR *
节点离线 * 心跳超时 * ERROR *

告警处理流程：


ACTIVE（触发） → ACKNOWLEDGED（已确认） → RESOLVED（已解决）

自定义告警规则与阈值
告警分级（INFO / WARN / ERROR）
告警状态跟踪与统计
告警确认与解决操作

日志审计

结构化日志系统，支持：

按模块过滤（调度器 / Agent / API / 插件）
按级别筛选（DEBUG / INFO / WARN / ERROR）
时间范围查询
关键字搜索
分页浏览

七、企业级安全

认证与授权

安全能力 * 说明 *

----------------*

JWT 认证 * Token 签发与验证，支持过期刷新 *
RBAC 权限 * 基于角色的访问控制 *
API Key * 服务间认证 *
CORS 防护 * 跨域请求白名单 *
输入校验 * 防止 SQL 注入与 XSS *
mTLS * 双向 TLS 认证（企业版） *
LDAP/OAuth * 企业统一认证集成（企业版） *

用户管理

用户注册与登录
用户列表与权限管理
操作审计日志
密码安全管理

八、Web 管理平台

基于 React + Vite 构建的现代化管理界面，所有功能开箱即用：

页面 * 功能 *

------------*

仪表盘 * 集群全局概览、GPU 统计、健康状态 *
节点管理 * 节点注册、状态监控、GPU 资源查看 *
节点监控 * CPU/内存/GPU/磁盘/网络实时曲线 *
任务管理 * 任务列表、状态筛选、创建与取消 *
GPU 分片 * 分片列表、QoS 管理、碎片分析 *
告警管理 * 告警规则、告警列表、确认与解决 *
插件管理 * 插件状态、配置调整、优先级排序 *
集群管理 * 多集群注册与监控 *
日志查看 * 模块化日志搜索与过滤 *
用户管理 * 用户注册、权限分配 *

九、企业版专属能力

能力 * 说明 *

------------*

多租户隔离 * 部门/项目级资源隔离与配额管理 *
高可用 * Master 主从集群，自动故障切换 *
可观测性集成 * Prometheus + OpenTelemetry + Grafana *
多集群管理 * 跨集群资源池化与统一调度 *
DAG 工作流 * 复杂多阶段任务编排 *
用量计费 * 按资源使用量计费模型 *
超分策略 * GPU 显存超分分配，提升利用率 *
Gang 调度 * 多任务协同启动，保证原子性 *

技术架构


┌─────────────────────────────────────────────────┐

│                   Web 管理平台                    │

│              (React + TypeScript + Vite)         │

├─────────────────────────────────────────────────┤

│                  RESTful API 网关                 │

│              (认证 / 鉴权 / CORS / 限流)          │

├─────────────────────────────────────────────────┤

│              调度引擎 + 插件系统                   │

│     (BinPack / Spread / Topology / Preempt)     │

├──────────┬──────────┬──────────┬────────────────┤

│ 任务管理  │ GPU 分片  │ 告警引擎  │  日志审计      │

├──────────┴──────────┴──────────┴────────────────┤

│               数据存储层                          │

│          (PostgreSQL / SQLite)                   │

├─────────────────────────────────────────────────┤

│               Agent 通信层                        │

│          (gRPC / HTTP / 心跳)                    │

├────────┬────────┬────────┬────────┬─────────────┤

│Agent-1 │Agent-2 │Agent-3 │ ...    │  Agent-N    │

│ NVIDIA │ 摩尔线程│ 昇腾   │ 海光   │  寒武纪 ...  │

└────────┴────────┴────────┴────────┴─────────────┘

技术栈

层级 * 技术选型 *

---------------*

后端 * Go *
前端 * React 18 + TypeScript + Vite *
数据库 * PostgreSQL / SQLite *
部署 * Docker / Docker Compose / 裸金属 *
通信 * HTTP RESTful + 心跳 *

经过验证的稳定性

指标 * 数据 *

------------*

压测任务数 * 1,198 *
成功完成率 * 98.3% *
服务崩溃次数 * 0 *
持续运行时间 * 9 小时+ *
GPU 类型覆盖 * 8 种 *
分片任务验证 * 通过 *

快速开始

一键部署


# 1. 部署 Server

./manage-services.sh start all



# 2. 在 Worker 节点一键部署 Agent

curl -fsSL http://your-server:5173/deploy-agent-all-in-one.sh * bash

访问

管理界面：http://your-server:5173
API 接口：http://your-server:3333/api/v1/
健康检查：http://your-server:3333/health

开源地址

Gitee: https://gitee.com/heteroflow/HeteroFlow

关于我们

HeteroFlow 致力于打造国产异构算力调度的基础设施，让每一种 GPU 架构都能被高效管理和利用，助力国产 GPU 生态发展。

HeteroFlow — 让每一张国产 GPU 都物尽其用

微信关注我们

原文链接：https://www.oschina.net/news/421192

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Fastify v5.8.5 发布，极速 Node.js Web 框架

Fastify 是一个高度专注于以最少开销和强大的插件架构为开发者提供最佳体验的 Node.js Web 框架，速度极快，它的灵感来源于 Hapi 和 Express。 Fastify v5.8.5 现已发布，本此更新带来以下内容： Security Release 此更新修复了 CVE-2026-33806 和 GHSA-247c-9743-5963 漏洞。 What's Changed chore：修复 port parsing 问题 #6603 chore：升级到 TypeScript v6.0.2 #6605 fix：恢复 number 和 string 类型的 trustPr...

2026-04-15

124

Git for Windows v2.53.0(3) 现已发布。这是一个安全修复版本，解决了 CVE-2026-32631 漏洞： CVE-2026-32631，Git for Windows：当用户克隆包含指向网络驱动器的符号链接的仓库时，Git 会在检出过程中跟随这些符号链接，导致 Windows 系统透明地执行 NTLM 身份验证，并将用户的 NTLMv2 哈希值泄露给攻击者控制的服务器。由于 NTLM 哈希算法本身存在安全漏洞，攻击者可以通过暴力破解的方式获取用户的凭据。此漏洞已通过阻止 git clone在检出过程中跟随指向网络驱动器的符号链接来解决。 Filename SHA-25...

2026-04-15

144

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

HeteroFlow 异构算力调度平台

HeteroFlow v2 企业版

异构算力统一调度平台 — 让每一张国产 GPU 都物尽其用

为什么选择 HeteroFlow？

核心能力总览

一、异构 GPU 统一纳管

支持 8+ 种 GPU 架构

自动硬件检测

统一资源抽象

二、GPU 分片调度

三级 QoS 保障

显存精细化管理

算力配额控制

三、智能任务调度

多策略调度引擎

任务全生命周期管理

任务创建向导

四、Agent 一键部署

30 秒远程上线

Agent 核心能力

部署方式

五、插件化架构

内置插件

插件管理

六、全链路监控与告警

实时监控仪表盘

节点级监控

智能告警系统

日志审计

七、企业级安全

认证与授权

用户管理

八、Web 管理平台

九、企业版专属能力

技术架构

技术栈

经过验证的稳定性

快速开始

一键部署

访问

开源地址

关于我们

Fastify v5.8.5 发布，极速 Node.js Web 框架

Git for Windows 2.53.0(3) 发布

相关文章

发表评论

资源下载

Mario

腾讯云软件源

Nacos

Sublime Text

欢迎您来访！