数据是分布式系统的通用语言
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
如果对刚才的比喻(复杂系统就像一个生命系统)进行延伸,那在 诊断出一个人中风后 才去寻找病因 与 在中风前就能及早发现问题 明显是两种方式。你当然可以翻阅病 例上的就诊记录,从中看出其实早有中风的苗头,但你更需要的是一个早期告警系统, 以及一种在问题刚发生时就能看到并尽可能快地介入处理的方式。
另外, 历史数据只能告诉你哪里出了问题,并且是局限在特定时间段内的问题。但在处理分布 式系统相关的问题时,需要关心的事情要比仅仅 ping 一下服务器通不通多多了。
与测量和监控相关的工具现在已经有很多,这里不会就具体工具展开讨论,而是要告诉你: 在查看自己的应用和系统的监控数据的过程中,你会对“直方图通常比平均值更能说明问 题”有越来越深的理解,在这个过程中开发者不会再将监控视为纯粹是系统管理员的领 域。