4.2 云上大型赛事应急预案
4.2.1 应急预案原则
当监控异常或者收到告警后,需要有充足的预案进行处理及快速恢复。详细的应急预案是保证服务SLA的重要手段,也是大型赛事活动的必备。
与分层监控对应的就是分层预案,注意虽然在不同的层级我们的应急手段、应急指标不同,但核心的原则不变,即应急预案应集中在如何快速止血恢复业务。对于IDC层,对应的应急预案有机房升温时应如何迅速降温、市电供电中断时如何快速上电、运营商BGP出口故障时如何做流量容灾、突发拥塞如何做绕行等等;对于云平台层,对应的应急预案主要由各产品团队设计实施,例如XGW流量打满如何限流、NC批量宕机如何快速拉起或者迁移、CDN节点流量超限如何处置等等;对于云产品层和应用业务层,则主要由保障团队和客户自身做相应的考量设计。
下面详细介绍北京冬奥保障项目中关于产品层和业务层的应急预案,我们针对不同的业务场景,梳理了预警等级、快恢方案、优化建议等等32项告警预案以及73项各类产品技术场景的预案。