从零开始搭建ELK+GPE监控预警系统
前言
本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。
业务规模
8个平台
100+台服务器
10+个集群分组
微服务600+
用户N+
面临问题
随着分布式微服务容器技术的发展,传统监控系统面临许多问题:
容器如何监控
微服务如何监控
集群性能如何进行分析计算
如何管理agent端大量配置脚本
这些都是传统监控所要面临的棘手问题,那么如何解决当前遇到的问题,GPE横空出世,后面会重点分析。
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
开源 | 蚂蚁金服分布式中间件开源第二弹:丰富微服务架构体系
小蚂蚁说:
数据、消息、微服务是蚂蚁金服自主研发的金融级分布式中间件 SOFA (Scalable Open Financial Architecture)的三大方向。
一个多月前,蚂蚁金服开源了 SOFABoot 和 SOFARPC 两个组件,受到了社区的热烈欢迎(点击文章阅读《开源|蚂蚁金服启动分布式中间件开源计划,用于快速构建金融级云原生架构》,了解更多),也收到了很多大家的反馈,其中大家对开源更多组件的呼声很大哦~!
今天我们就给大家介绍下本次 SOFA 中间件开源的几个微服务体系组件。
2017我依旧在云栖社区
双十一即将来到,2018年还会远吗?至此我也即将奔向三十而立的年龄。
从2012年接触阿里云,2013年正式使用阿里云,2014年成为社区帮帮团,2015年申请成为了一名版主,2016年阿里云陪伴我的工作和生活,2017年有幸也成为了云栖社区的一名专家。
Grafana+Prometheus系统监控之MySql
架构
grafana和prometheus之前安装配置过,见:Grafana+Prometheus打造全方位立体监控系统
MySql安装
MySql的地位和重要性就不言而喻了,作为开源产品深受广大中小企业以及互联网企业喜爱,所以这里我们也有必要对其进行相应的监控。
Consul+Prometheus系统监控之注册发现
缘起
前面几篇文章分别对系统服务、MySql以及Redis相关软件做了监控预警,但是大家有没有发现,在prometheus.yml里配置需要监听的服务时,我们需要按服务名手动写入,也就是说以后每增加一个服务,就得手动修改此配置,并重启promethues服务。