全链路中每个部分都有可能会出问题,问题排查总体上包括两大部分:前段和后段。
前段排查首先需要确定是一台客户端出问题,还是全部有问题,如果是一台出问题,大概率是客户端自己的问题。
前段排查,包括但不限于:
一.ECS
1.Load,内存等;
2.PPS 限制
二.客户端 1.连接池满;
2.RT 高(跨地域,gc 等);
3.建连接慢(K8s DNS 等);
4.大 Range 查询,发送快,接收慢
三.网络 227
1.网络发生丢包,抖动等;
2.运营商网络抖动。 后段排查,主要是慢查询和 CPU排查,包括“ Proxy”、“DB”两个主要组件
四.Proxy
1.分发慢查询,导致 RT 升高;
2.流量和 CPU 升高(需要扩容 proxy);
五. DB
1.容量、CPU 和流量问题(见前文);
2.主机发生故障,业务侧影响和 HA 执行速度有关;
3.慢查询,可以通过慢日志看到具体的命令后段排查,主要是慢查询和 CPU 排查,包括“ Proxy”、“DB”两个主要组件:
一.Proxy
1.分发慢查询,导致 RT 升高;
2.流量和 CPU 升高(需要扩容 proxy)
二.DB
1.容量、CPU 和流量问题(见前文);
2.主机发生故障,业务侧影响和 HA 执行速度有关;
3.慢查询,可以通过慢日志看到具体的命令
资源来源于《阿里云数据库运维实战问题改》
https://developer.aliyun.com/topic/download?spm=a2c6h.20345107.J_6399686890.1.2e1e17dbzKUX5r&id=8198
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。