一、引言
随着客户云上业务规模不断扩大,迭代速度不断加快,系统复杂度也随之不断提
升,如何保障云上业务稳定性这个话题也变的愈发重要。本书将从理论概念出发、围
绕故障管理体系和变更管控体系展开,并根据各行业客户稳定性实践经验,对云上业
务稳定性体系建设进行多角度的讲解。
创作团队名单
顾问组成员
王超(明稀) 陈阳(楷睿) 李斯达(木仔) 张医博(韩笠) 陈庆康(辰路)
周建平(嘉益) 徐元(英为) 王海忠(豫仁)
二、理论概念
2.1 稳定性
“稳定性是数学或工程上的用语,判别一系统在有界的输入是否也产生有界的输出。若是,称系统为稳定;若否,则称系统为不稳定”。这是维基百科上对稳定性的定义,所以当一个业务系统接收到输入后,可以产生符合预期的输出,那么认为业务系统是稳定的,否则业务系统是不稳定的。一个产品/系统其实可以分为一个个循环往复的周期单元,简单来看:
一个完整周期单元时间 = 无故障时间 + 故障恢复时间。
尽可能延长无故障时间(MTBF),缩短故障恢复时间(MTTR),提升业务整体可用性,也就是所谓的"稳定"。业务可用性也是可以通过Availability = MTBF / (MTBF + MTTR) 来度量。通常业界习惯用N个9来表征系统可用性,比如99.9%(3-9 availability),99.999%(5-9 availability)。
可用性概念在各个业务上的落地实践即为业务可用率。业务可用率是业务稳定性度量的重要指标之一,通过选取一个或者几个业务核心指标,定义该指标(集)的下跌程度和持续时长作为影响该业务可用率的定义。围绕业务场景的可用性指标定义、目标设定、系统监控能力建设,及通过目标关联,最终达成联动上下游团队确保业务视角可用性目标达成的结果。
案例定义及目标:
•电商全站交易可用率目标99.995%
•可用性事件定义:因故障引发,全站交易创建、支付笔数与基线相比下跌超过20%,且持续10分钟及以上,则记为可用性事件。
•发生可用性事件后,对应时长计算为宕机时间(downtime),全年对应的可用率即可计算出来。