基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
Grafana+Prometheus系统监控之钉钉报警功能
介绍
钉钉,阿里巴巴出品,专为中国企业打造的免费智能移动办公平台,含PC版,Web版和手机版。智能办公电话,消息已读未读,DING消息任务管理,让沟通更高效;移动办公考勤,签到,审批,企业邮箱,企业网盘,企业通讯录,让工作更简单;酷公司,用钉钉,随时随地移动办公。
如何配置grafana开发环境
前言
grafana是一款功能强大的数据可视化软件,支持多种数据源。本文将介绍如何配置grafana开发环境,可对其进行汉化等处理。
如果不二次开发,可参照文档直接安装已编译的版本:https://grafana.
阿里云监控grafana数据源使用说明文档
一. grafana安装
如果服务器上没有安装grafana,需要在服务器上安装grafana。
grafana卸载:
1.1 查看grafana安装情况
rpm -qa | grep -i grafana
1.
开源监控利器Prometheus初探
Kubernetes作为当下最炙手可热的容器管理平台,在给应用部署运维带来便捷的同时,也给应用及性能监控带来了新的挑战。本文给大家分享一款十分火热的开源监控工具Prometheus,让我们一起来看它是如何兼顾传统的应用监控、主机性能监控和Kubernetes监控的。
Grafana+Telegraf+Influxdb监控Tomcat集群方案
前言
前一段时间自家养的几只猫经常出问题,由于没有有效的监控预警手段,以至于问题出现或者许久一段时间才会被通知到。凌晨一点这个锅可谁都不想背,为此基于目前的情况搭建了以下这么一套监控预警系统。
相关软件
Nginx:代理访问 Grafana
Grafana: 可视化面板(Dashboard),有.
基于Jmeter的性能压测平台实现
很早就想要一套属于自己的性能压测平台,原因是使用了阿里云的性能测试PTS,就挺羡慕能有一个这样的性能测试平台,但毕竟人家的东西我们高攀不起(要钱的),而且阿里云的性能测试平台是不支持多种协议的(比如我有一个项目要用websocket测试,结果人家就支持http压测)。