第六章 云产品稳定性治理与风险管控
系统的稳定性极大程度依赖于云产品的稳定性,在赛前、赛时,我们都需要时刻关注着云产品层是否在稳定运转、是否有潜在风险,这是业务稳定性保障的基石。在本章,我们将详细介绍云产品稳定性治理和风险管控方面的实践经验。
6.1 云产品稳定性治理
6.1.1 什么是稳定性治理
在《ISO1IEC125010-20111SQuaRE》标准中,稳定性被理解为“应对故障(faults)的能力、对用户而言是可用的,被性能、可用性、可维护性等因素影响”9。系统的“稳定性”是指系统要素在外界影响下表现出的某种稳定状态。但事实上,复杂系统中潜伏着大量可能影响到稳定性状态的因素组合。在各种应用、系统、平台的交叉组合中,稳定性保障难度也呈指数性增长。由于复杂系统的涟漪效应,细微的参数配置(MTU/某个内核参数/环境变量等等)也可能让系统稳定性受到挑战。
在大型赛事核心系统上云的背景下,开、闭幕式及重点赛事会遇到流量高峰,最高会有千万级DAU以及十万级的PV的访问量,赛事系统的稳定性、准确性和即时性对于一届大型体育赛事是至关重要的。
稳定性的高低依赖两大因素:云平台自身的稳定性能力,以及使用产品组合保障业务的高可用、灾备能力。本章节主要阐述稳定性建设的在大型赛事活动上的实践思考和简要思路。