基于 Prometheus 的超算弹性计算场景下主机监控最佳实践
作者:左知 超算场景的业务特点 主机监控,或许是监控/可观测领域最传统和普遍的需求。在超算训练,AI 大规模训练的业务场景下,主机监控又有哪些痛点和难点呢?根据我们针对多个大规模超算客户的需求整理,超算场景的特点主要集中在如下几个方面: 大规模计算 超算擅长处理可并行化的计算问题,通过成千上万的处理器核心协同工作,实现任务的分解与加速执行。用户通常采用弹性任务调度系统在云上快速拉起大量的 ECS 主机来满足大规模计算需求。训练任务进行时计算集群整体算力利用率等是成本控制的关键。 高性能与吞吐量 超算系统设计用于处理大规模数据集,能够持续高效地完成大量计算工作,保证高吞吐量,适用于大数据分析、气候模拟、生物信息学研究等领域。如果计算集群某些算力机器出现吞吐瓶颈,即会影响整体计算性能。 弹性计算 在超算场景中,每一次训练任务一般持续几个小时到几天不等,每一次训练的算力需求也差异较大。通常用户采用弹性算力供给方式,在需要时拉起算力资源,结束时完成释放。计算任务的规模和复杂性迅速变化,也可能需要在短时间内快速增加或减少计算资源。 业务高峰与低谷 特定时段会对计算资源有极高的需求,而在其他时期则...
