使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控
目录
使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控
使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控
1 背景
NVIDIA提供了nvidia-smi命令工具用于查询和监控GPU的相关数据,但是对于使用者来说,每次手动查看很不方便,无法做到实时监控,而且也无法可视化,不直观。
本文将会介绍如何利用阿里云云监控服务提供的自定义监控功能来实现GPU云服务器的GPU监控和报警的可视化。
2 自定义监控和报警
阿里云云监控服务提供了自定义监控功能,用户可以利用它实现自定义的数据监控和报警。
我们利用自定义监控提供的API或者SDK,可以将GPU云主机内采集的GPU数据上报,在云监控控制台上添加相应的GPU监控项,就可以实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报
