基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
Grafana+Prometheus系统监控之钉钉报警功能
介绍
钉钉,阿里巴巴出品,专为中国企业打造的免费智能移动办公平台,含PC版,Web版和手机版。智能办公电话,消息已读未读,DING消息任务管理,让沟通更高效;移动办公考勤,签到,审批,企业邮箱,企业网盘,企业通讯录,让工作更简单;酷公司,用钉钉,随时随地移动办公。
如何配置grafana开发环境
前言
grafana是一款功能强大的数据可视化软件,支持多种数据源。本文将介绍如何配置grafana开发环境,可对其进行汉化等处理。
如果不二次开发,可参照文档直接安装已编译的版本:https://grafana.
2017我依旧在云栖社区
双十一即将来到,2018年还会远吗?至此我也即将奔向三十而立的年龄。
从2012年接触阿里云,2013年正式使用阿里云,2014年成为社区帮帮团,2015年申请成为了一名版主,2016年阿里云陪伴我的工作和生活,2017年有幸也成为了云栖社区的一名专家。
阿里云监控grafana数据源使用说明文档
一. grafana安装
如果服务器上没有安装grafana,需要在服务器上安装grafana。
grafana卸载:
1.1 查看grafana安装情况
rpm -qa | grep -i grafana
1.
开源监控利器Prometheus初探
Kubernetes作为当下最炙手可热的容器管理平台,在给应用部署运维带来便捷的同时,也给应用及性能监控带来了新的挑战。本文给大家分享一款十分火热的开源监控工具Prometheus,让我们一起来看它是如何兼顾传统的应用监控、主机性能监控和Kubernetes监控的。