服务监控(上)

简介: 服务监控(上)

为什么服务需要监控


监控进程状态
及时发现问题
掌握主动权


监控什么


1、进程运行状态
2、机器资源状态
(机器广义上包括PM/VM/Docker)
(资源包括cpu\memory\disk\network\io)
Linux下如何监控:  
a、磁盘 df -h
b、内存 free -g
c、cpu vmstat
d、网络 ifstat

磁盘情况

image.png

image.png



一块网卡就是etc0
两块网卡就是 etc0  etc1
In 进包 
out 发包


监控数据如何采集


  • 用户请求日志打印
  • 服务端数据上报
  • 前端页面数据埋点


日志规范


  • 格式key=value
  • 空格分割key=value对


服务传统监控手段


image.png


1、进程活着 但不代表正常运行即可能存在进程假死的情况
2、通过语义监控保证进程不是假死状态即模拟用户对接口发出请求
3、服务稳定的表现是每分钟错误量都是固定的
4、数据波动监控 比如数据流量突然增加了50% 可能是别人通过爬虫调用你的接口


进程监控


进程是否存活

  • 原始解决方案
1、ps -aux|grep 进程名
2、不断轮询 没有输出解决触发告警
  • 优雅解决方案
Linux daemontools supervise


supervise监控启动方法

image.png


父进程 fork 开启子进程
子进程退出 发送一个signal给父进程
supervise 是二进制文件代表父进程

弊端

解决不了进程假死问题 仅仅监控进程是否还活着


语义监控


image.png


错误日志监控


相对通用的解决方案

image.png


数据波动监控


解决方案

image.png


优秀开源监控框架


image.png


image.png

image.png


image.png



相关文章
|
9天前
|
数据采集 运维 监控
添加监控
添加监控
21 8
|
12天前
|
Prometheus 监控 Cloud Native
使用Prometheus配置监控与报警
通过以上步骤,你可以使用Prometheus和Alertmanager实现监控和报警配置,以确保系统在出现性能问题或故障时能够及时通知相关人员。欢迎关注威哥爱编程,一起学习成长。
|
5月前
|
分布式计算 资源调度 Java
YarnJMX监控
YarnJMX监控
99 2
|
6月前
|
监控
rabbitmqctl管理和监控
rabbitmqctl管理和监控
|
9月前
|
Prometheus Kubernetes 监控
k8s的监控
k8s的监控
143 0
|
12月前
|
数据采集 Prometheus 监控
【夜莺监控】海王——Categraf
【夜莺监控】海王——Categraf
|
运维 Prometheus 监控
Zabbix与乐维监控对比分析(四)——告警管理篇
告警管理是所有IT监控平台最重磅的功能之一,也是评判一个监控平台好坏的最重要指标之一。告警管理篇是Zabbix与乐维监控对比分析专题系列文章的第四篇,主要包括告警管理、告警中心、告警收敛、告警通知、日报周报等内容。
230 0
Zabbix与乐维监控对比分析(四)——告警管理篇
|
存储 监控 网络协议
服务监控(下)
服务监控(下)
129 0
服务监控(下)
|
监控
服务监控(中)
服务监控(中)
127 0
服务监控(中)
|
监控 数据安全/隐私保护
基于Grafana的监控报警平台
简介 监控报警平台以Grafana为基础,主要功能是将收集存储的数据按照不同维度、不同应用、不同用户进行配置化的展示;为了保证数据安全,每个团队只能看到自己的应用数据。同时对不同维度的数据,可以进行报警配置,根据最常用的报警方式,提供了钉钉报警、邮件报警、webhook报警三种方式。
11428 0