基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
K8s 应用管理之道 - 有状态服务
用户通过 Deployment、ReplicationController 可以方便地在 kubernetes 中部署一套高可用、可扩展的分布式无状态服务。这类应用不在本地存储数据,通过简单的负载均衡策略可实现请求分发。
如何搭建阿里云集群服务器?
前面搞了个教程教大家《如何处理网站高并发流量问题?》里面有提到需要搭建集群服务器,今天就给大家介绍一下阿里云搭建集群服务器的方法。
K8S集群中修改在线应用的存储卷信息
修改应用NAS版本:从v4到v3
1. 修改nfs版本,需要重挂载nas卷,则pod需要重启;
2. 如果使用deploy部署应用,参考下面示例,如果使用pod部署应用,下面示例中改为pod的部署模板;
修改前应用:
pv.