利用GPU性能指标进行弹性伸缩
随着人工智能大潮的风起云涌, 视频识别,语音识别,图像识别,自然语言翻译,AI画匠等基于GPU的在线预测也在遍地开花。而弹性伸缩对于人工智能服务来说尤为重要,一方面是业务压力峰值时巨大的计算力需求;另一方面当业务空闲时,GPU的空耗成本也是大家很难承受的。同时在与客户的交流中,我们也发现客户对于GPU资源的弹性伸缩也有很强的定制化需求,希望能自主控制触发条件,并在此基础上和自身业务指标相结合等等。
基于这种现实,我们提供了一套容器服务所扩容触发器结合第三方监控框架influxDB+Grafana的报警伸缩方案。 具体来说,分为4个部分:
- 创建容器服务节点扩缩容触发器
- 部署基于Grafana和InfluxDB的GPU监控应用
- 在Grafana中设置通知渠道,通过Webhook调用缩扩容触发器
- 定义触发条件
创建触发器
参考 利用阿里云容器服务实现
