E-HPC支持多队列管理和自动伸缩
阿里云E-HPC(弹性高性能计算)在最近的发布中支持多队列调度以及管理,另外发布针对多队列调度自动伸缩的策略支持。
本文主要介绍以下内容
- 多队列调度的应用背景和应用场景
- E-HPC支持多队列调度的功能实现
- 介绍各种HPC调度器类型对队列和节点组是如何配置管理的
- 介绍如何通过OpenApi的方式调用E-HPC多队列调度相关功能
前言
- 传统的HPC本地集群迁云过程中,部分会采用混合云的模式,例如如下模式,
云上计算资源规格可能是和本地的计算节点规格不一样,这就导致单个集群里需要支持多种规格的计算资源,HPC集群一般会用不同队列(job queue)或者节点组(node group)来管理不同规格的节点,然后分发作业到不同的队列以达到区分云上作业和本地作业;
- 有客户有需求在一个E-HPC集群里面运行不同类型作业,每种类型的作业对资源的需求是不同的,例如前
