Pigsty 提供了约 1200 个指标,但最重要的就是这 10 个,这也是 PG Cluster 首屏上呈现出的关键指标。数据库负值和饱和度是最重要的指标。按照 Google SRE 的监控最佳实践,这些指标可以分为 4 大类,饱和度、延迟、流量和错误,都具有很重要的参考价值。
查询定位优化,慢查询是数据库的大敌,该系统首先定位集群 RT 异常,定位到具体的实例和查询,利用 PG Stat Statements 面板,根据查询 ID 定位慢查询的具体语句,索引出问题,再进行是性能优化;
定位系统故障,人工时时盯着指标,是一个非常辛苦的活,更好的选择是由机器来盯着这些指 标,您设定好规则,机器发现这些指标超出异常范围的时候,自动给你触发发 送报警,Pigsty 里面提供了一系列的报警规则,同时报警事件也可以在监控系 统的面板里面看到,通过这种条状甘特图的方式,我们可以看到哪一个时间段触发了报警事件,从而有的放矢的去排查。报警系统提供了很多计算好的衍生指标,所以不用再写特别复杂的表达式,可以直接用。
资源来源于《阿里云数据库运维实战问题改》
https://developer.aliyun.com/topic/download?spm=a2c6h.20345107.J_6399686890.1.2e1e17dbzKUX5r&id=8198
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。