【翻译】Prometheus 2.2.0 新特性
Prometheus 2.2.0 现在(2018.3.12)已经发布,在 1 月份的 2.1.0 之后又进行了一些修正和改进。
这个版本的存储格式发生了变化,所以一旦升级到2.2.0,就不可能降级回去。
体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源
通过ARMS管理Kubernetes集群GPU性能指标
在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。
自动化运维的魔法:使用Python脚本简化日常任务
【8月更文挑战第50天】在数字化时代的浪潮中,自动化运维成为提升效率、减少人为错误的利器。本文将通过一个实际案例,展示如何利用Python脚本实现自动化部署和监控,从而让运维工作变得更加轻松和高效。我们将一起探索代码的力量,解锁自动化运维的神秘面纱,让你的工作环境焕然一新。
docker镜像仓库hub.docker.com无法访问-解决办法
docker镜像仓库hub.docker.com无法访问-解决办法1 个人镜像站点2 dockerhub为什么无法访问2.1 查看dockerhub实际IP2.2 ping检测3 镜像加速3.1 使用国内镜像加速3.1.1 docker配置:3.1.2 containerd配置:3.2 使用博主个人镜像仓库3.2.1 目前有如下镜像仓库,后续会陆续增加3.2.2 使用方式3.2.3 拉取镜像