kubernetes 基本概念
kubernetes中的Node、Pod、Replication Controller、Service等都可以看作为资源对象,几乎所有的资源对象都可以通过kubectl工具执行增删改查并将其保存在etcd中持久化存储。
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。