云上业务的稳定性至关重要,这是所有人的共识。每个成功的公司或产品都会投入大量的时间和精力,甚至成立专门的部门来专注于业务稳定性的提升。但稳定性保障是一个复杂、长期的过程,需要从实践中积累经验并逐渐形成体系化的标准,所以无论是对于上云初期还是在云上已经运行多年的用户,业务稳定性保障都一直是个及其重要且具有挑战性的技术话题。本书从概念体系到行业实践案例,希望可以给读者提供一套可落地的方法论和多种云上业务稳定性保障的关键技术手段。
概念体系
本书从稳定性和故障这两个关键概念入手,把抽象的概念转化为可度量的定义,让稳定性保障的目标更加清晰具体。从故障等级定义、故障分体系、故障发现、故障应急、故障快恢、故障复盘、改进追踪等多个方面对故障管理体系建设进行了全面介绍。另一方面也从变更标准流程规范、五大关键变更管控动作(准入、灰度、观测、回滚和数据上报)对变更管控体系进行了多方面解析。
行业实践案例
基于多个大型项目中积累的实践经验,针对新游上线、容器化部署,赛事直播活动保障、直播业务监控,平台网站业务的监控预警体系建设、全链路压测与容量评估、高可用架构建设、故障演练与紧急预案设计等典型场景,多方位地讲解了云上业务稳定性保障的多个关键技术手段。