《云上大型赛事保障白皮书》——第三章 压测调优与技术演练——3.2 云上大型赛事技术演练——3.2.2 容灾演练及冬奥实践(上): https://developer.aliyun.com/article/1226503?groupCode=supportservice
规划演练方案:
为保证本次演练顺利进行,我们从多个维度进行充分准备工作。
组织维度:我们确定了阿里云支持侧/产研侧核心人员名单,演练期间全程会议。
业务维度:明确参与演练的核心信息系统架构,向相关开发商作演练说明,向开发商提前准备好临时权限,避免因无权限发生的演练延误。
演练方案流程如下表所述。
实施演练过程:
演练从19:00开始,至21:50结束,得益于前期的充分准备和演练过程中各位同学的及时支持,各产品切换和回切均比较顺利,各系统切换和验证工作基本符合预期。整体演练比原定演练计划提前3小时结束。
解决演练问题:
演练过程中发现政务云上有部分产品管控异常(不影响演练本身),均已明确原因并排期修复。针对客户侧问题也总结整理并提供建议,请客户侧做了优化。
客户侧问题如下:
HMS SLB只挂载了单个PDC区域的ECS,没有挂在SDC的ECS。
HMS,FBS,TMS,Info1AV没有设置开机服务自启动,导致服务无法自动启动。
FBS系统没有设置自动mount /dev/vdb1 /Data,导致服务无法自动启动。
发现HMS的三个SLB的健康检查状态异常,原因是由于异常的ECS内部还没有部署业务的服务。
阿里侧问题如下:
RDS的备份Button不可用,后联系RDS产研修复。
部分ECS的可用区的控制台显示异常,不能区分具体可用区,后联系ECS产研修复。
最终,通过两次的容灾演练,我们验证了阿里云组件切换功能正常,保证了系统的整体稳定性。