基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
搞大啦!精灵云与全球最大孵化器PNP带你一起飞
Ghostcloud精灵云是国内首批从事容器虚拟化研发的企业,其产品企业级容器云PaaS/CaaS平台EcOS,与微服务/DevOps相融合,运用至企业IT系统全生命周期的开发、测试、运维及发布流程中。