3.2故障分体系
故障分是阿里巴巴独特的故障衡量机制,通过算法赋予故障一个分值,解决了传
统故障考核中的只看个数不看故障严重程度(持续时长,影响范围等)的弊端,同时有效提升了故障的MTTR。
故障分的基本公式为:
其中Pscore根据故障的等级及综合影响范围来确定,Tratio根据故障的持续时长
来确定,Eratio根据故障引发的附加影响面(如重大舆情,重大资金损失)来确定。此外云上产品故障也会引入S系数,根据企业用户对故障影响的感受程度确定。
同时各个技术团队可在财年之初设定一个总体的故障分Budget,基于历史故障
分情况并结合新财年的目标共同确定一个故障分目标。并将各个团队的数据以报表的方式定期进行通晒。同时针对一些典型的故障,在更大范围内进行解读和分享,以达到警示和降低故障复发率的目的。