服务器性能及业务监控指标,可根据实际情况调整,下表供大家参考。
监控类别监控子对象监控维度监控指标警告严重
服务器CPU负载1分钟采集,5分钟告警>=5>=10
利用率1分钟采集,5分钟告警>=60%>=80%
温度1分钟采集,5分钟告警>=70℃>=80℃
内存利用率1分钟采集,5分钟告警>=80%>=90%
磁盘分区使用率1分钟采集,5分钟告警>=80%>=90%
IO/读写1分钟采集,5分钟告警
网络连接监听端口5分钟告警
网络质量延迟监控服务器到服务器的连通性5分钟告警>=100ms>=300ms
前端服务器到后端服务器连通性5分钟告警>=100ms>=300ms
丢包监控服务器到服务器的连通性5分钟告警>=5%>=20%
前端服务器到后端服务器连通性5分钟告警>=5%>=20%
网卡网络带宽in/out5分钟告警
网络数据包数量count/s5分钟告警
网络数据包大小bytes/s5分钟告警
业务监控端口端口存在性1分钟采集,及时告警 端口不存在
进程进程存在性1分钟采集,及时告警 进程不存在
网络流量所有业务流量总合1分钟采集,5分钟告警
注册注册响应时间2小时采集,5分钟告警>=20s>=30s
登录登录响应时间10分钟采集,5分钟告警>=20s>=30s
充值充值响应时间10分钟采集,5分钟告警>=20s>=30s
自定义监控Nginx,Redis等
内容监控HTTP状态监控监控关键页面响应时间5分钟采集,及时告警>=5s>=10s
监控关键页面关键字,如数据库连接成功/失败1分钟采集,及时告警 内容不匹配
数据库监控数据库连通性监控数据库是否存活1分钟采集,及时告警
数据库连接数5分钟告警
主从监控主从同步状态1分钟采集,及时告警
内存使用内存使用率10分钟采集,5分钟告警
索引索引使用率10分钟采集,5分钟告警
缓存缓存使用率10分钟采集,5分钟告警
表锁表锁状态10分钟采集,5分钟告警
DMLselect,insert,update,delete10分钟采集,5分钟告警
TPSTPS/S10分钟采集,5分钟告警
流量in/out 流量5分钟告警