最近对影响系统稳定性运行的历史事件做了分析,可分为三类,解决不好就是三大杀手,解决好了就是三架马车。
一、数据源故障传导
如果说数据服务系统的数据是蛋糕,那么数据源系统就是在提供面粉和鸡蛋。面粉或者鸡蛋没来,蛋糕自然也就吃不上了。这个原因大约占50%。
二、人为因素
频繁变更、心情不佳、习惯不良、工作被打断,都会提高出错的可能性,大约占30%。
三、平台
操作人员误操作、程序没写好,都是挑战平台的健壮性的。虽然也可以归为人为因素,但是如果平台做得更好一些,问题可以规避。这一类问题,加上系统宕机、监控不当一类的问题,我都归结为平台因素,大约占20%。
总结:数据服务体系上下游延伸的链条很长,任何一个环节出现问题都有可能造成用户体验到系统不稳定的结果。又因为链条很长,所以导致系统不稳定的原因会千奇百怪,仅仅是发现一个解决一个是很难控制住的。表面上看人为因素也就是1/3,但是深度思考下去,数据源头和平台的背后也是人,归根到底还是“人性”占主要。这就需要有一名好的管理者,做好上下游沟通、控制好工作的节奏、为员工营造良好的工作氛围,人好了,系统也就跟着好了。
本文转自 hexiaini235 51CTO博客,原文链接:http://blog.51cto.com/idata/1082351,如需转载请自行联系原作者