从零开始搭建ELK+GPE监控预警系统
前言
本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。
业务规模
8个平台
100+台服务器
10+个集群分组
微服务600+
用户N+
面临问题
随着分布式微服务容器技术的发展,传统监控系统面临许多问题:
容器如何监控
微服务如何监控
集群性能如何进行分析计算
如何管理agent端大量配置脚本
这些都是传统监控所要面临的棘手问题,那么如何解决当前遇到的问题,GPE横空出世,后面会重点分析。
Grafana+Prometheus打造全方位立体监控系统
前言
本文主要介绍如何使用Grafana和Prometheus以及node_exporter对Linux服务器性能进行监控。下面两张图分别是两台服务器:
服务器一
服务器二
概述
Prometheus是一个开源的服务监控系统,它通过HTTP协议从远程的机器收集数据并存储在本地的时序数据库上。
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
Grafana中文版本
grafana-chinese
tags: GitHub grafana
Grafana中文汉化版本
GitHub:https://github.com/WangHL0927/grafana-chinese
作者:whl
email:w958660278@163.com
个人网站:https://wanghualong.cn
当前Grafana版本
Grafana v5.2.1 (commit: 2040f61)
使用教程
使用前请确认Grafana版本是否一致,Grafana版本更新方法请参考官网教程。
SpringBoot使用SOFA-Lookout监控
本文介绍SpringBoot使用蚂蚁金服SOFA-Lookout配合Prometheus进行监控。
1.SOFA-Lookout介绍
上一篇已经介绍使用Prometheus进行暴露SpringBoot的一些指标进行监控,传送门,这一篇介绍如何使用SOFA-Lookout配合Prometheus。
时序数据库为什么选 Prometheus
Prometheus 与 Graphite
范围
Graphite 专注于成为一个具有查询语言和绘图功能的被动时间序列数据库。任何其他问题都由外部组件处理。
Prometheus 是一个完整的监控和趋势系统,包括内置和活动的抓取、存储、查询、绘图和基于时间序列数据的报警。
开源 serverless 产品原理剖析(一) - Kubeless
背景
Serverless 架构的出现让开发者不用过多地考虑传统的服务器采购、硬件运维、网络拓扑、资源扩容等问题,可以将更多的精力放在业务的拓展和创新上。
随着 serverless 概念的深入人心,各大云计算厂商纷纷推出了各自的 serverless 产品,其中比较有代表性的有 AWS lambda、Azure Function、Google Cloud Functions、阿里云函数计算等。
不用 H5,闲鱼 Flutter 如何玩转小游戏?| 1月7号云栖号夜读
今天的首篇文章,讲述了:最近APP游戏化成为了一个新的风口,把在游戏中一些好玩的、能吸引用户的娱乐方式或场景应用在应用当中,以达到增加用户粘性,提升DAU的效果,成本较低。同时在一些需要对用户有引导性的场景,游戏化还可以使用户更易于接受并完成引导性任务,并通过激励的形式鼓励用户持续沉浸在任务当中,形成良性循环。