为什么要把系统健康度巡检放到技术管理里,我觉得这是一个非常重要的环节。 像传统的航空、电力、汽车行业都要有一定的巡检机制,保障设备系统正常运转,同 样软件系统也同样需要巡检机制保障业务健康发展。 随着业务的不断发展,业务量和数据量不断的上涨,系统架构的腐蚀是避免不了 的,为了保障系统的健康度,需要不断的考虑对系统架构、性能进行优化。 系统的监控与报警能够一定程度发现系统存在的问题,系统存在的一些隐患需要 通过对系统的巡检去发现,如果优化不及时在极端情况会导致故障,巡检粒度建议每 周巡检一次自己所负责的业务系统。 系统巡检重点要关注如下几点: ● 系统指标:系统 CPU、负载、内存、网络、磁盘有无异常情况波动,确认是 否由发布导致,还是系统调用异常。 ● 慢接口:通常 rt 大于 3s 的接口需要重点关注,极端并发场景下容易导致整个 系统雪崩。 ● 慢查询:MYSQL 慢查询需要重点关注,随着数据量上涨,需要对慢查询进行 优化。 ● 错误日志:通过错误日志去发现系统隐藏的一些 bug,避免这些 bug 被放大, 甚至极端情况下会导致故障。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。