从零开始搭建ELK+GPE监控预警系统
前言
本文可能不会详细记录每一步实现的过程,但一定程度上可以引领小伙伴走向更开阔的视野,串联每个环节,呈现予你不一样的效果。
业务规模
8个平台
100+台服务器
10+个集群分组
微服务600+
用户N+
面临问题
随着分布式微服务容器技术的发展,传统监控系统面临许多问题:
容器如何监控
微服务如何监控
集群性能如何进行分析计算
如何管理agent端大量配置脚本
这些都是传统监控所要面临的棘手问题,那么如何解决当前遇到的问题,GPE横空出世,后面会重点分析。
ECS控制台使用小贴士
很多的用户在使用云服务器的时候都通过云服务器的名称和描述信息来进行资源分组,这里的弊端是一个云资源只支持一个名称和描述。批量管理云服务器的时候一个重要的任务就是资源分组。为了方便的资源管理,云服务器有一个重要的概念就是标签。
java线上服务问题排查总结
java线上服务问题排查
1、业务日志相关
如果应用系统出现异常,一般都会在业务日志中体现
查看日志问题常用命令,以标装springboot应用为例:
进到标装日志目录:cd /wls/applogs/rtlog/spri* --善用tab键
统计当天业务日志中ERROR出现数量:egre.
理解Docker容器的进程管理
Docker在进程管理上有一些特殊之处,本文会分析Docker进程管理的技术细节,并介绍一些常见问题的解决方法和注意事项。