从零开始搭建ELK+GPE监控预警系统
前言
本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。
业务规模
8个平台
100+台服务器
10+个集群分组
微服务600+
用户N+
面临问题
随着分布式微服务容器技术的发展,传统监控系统面临许多问题:
容器如何监控
微服务如何监控
集群性能如何进行分析计算
如何管理agent端大量配置脚本
这些都是传统监控所要面临的棘手问题,那么如何解决当前遇到的问题,GPE横空出世,后面会重点分析。
支持Dubbo生态发展,阿里巴巴启动新的开源项目 Nacos
上周六的Aliware技术行上海站Dubbo开发者沙龙上,阿里巴巴高级技术专家郭平(坤宇)宣布了阿里巴巴的一个新开源计划,阿里巴巴计划在7月份开启一个名叫Nacos的新开源项目, 在活动演讲中,坤宇介绍了这个开源项目的初衷,他表示 “将通过Nacos项目将阿里巴巴在建设共享服务体系中使用的服务发现、.
Kubernetes日志采集Sidecar模式介绍
DaemonSet和Sidecar模式各有优缺点,目前没有哪种方式可以适用于所有场景。因此我们阿里云日志服务同时支持了DaemonSet以及Sidecar两种方式,并对每种方式进行了一些额外的改进,更加适用于K8S下的动态场景。
Grafana+Prometheus打造全方位立体监控系统
前言
本文主要介绍如何使用Grafana和Prometheus以及node_exporter对Linux服务器性能进行监控。下面两张图分别是两台服务器:
服务器一
服务器二
概述
Prometheus是一个开源的服务监控系统,它通过HTTP协议从远程的机器收集数据并存储在本地的时序数据库上。
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
Grafana中文版本
grafana-chinese
tags: GitHub grafana
Grafana中文汉化版本
GitHub:https://github.com/WangHL0927/grafana-chinese
作者:whl
email:w958660278@163.com
个人网站:https://wanghualong.cn
当前Grafana版本
Grafana v5.2.1 (commit: 2040f61)
使用教程
使用前请确认Grafana版本是否一致,Grafana版本更新方法请参考官网教程。
阿里云基础产品技术月刊 2019年4月
阿里云基础产品技术月刊 2019年4月,阿里云2018年建成国内首家IPv6 DDoS防御系统,提供IPv4+IPv6海量IP下的双栈DDoS秒级自动防护,为IPv6网络下的业务保驾护航。经过4个月申报答辩,成功入选工信部试点示范项目,工信部是国家IPv6总牵头政府部门,此次入选代表工信部的高度认可。