6.2.4 冬奥重保--稳定性专项
在赛前,我们成立了稳定性专项,对阿里云各产品包括库存水位、高可用风险、产品侧应急预案等等都进行了专项梳理。通过系统化的稳定性排查项来规避产品侧的部分风险。
以ECS为例,本次冬奥会北京奥组委、奥林匹克国际官网、奥林匹克频道OCS、奥林匹克广播服务公司OBS等奥运核心系统全面上云,神龙ECS是冬奥系统运行的核心底座,其稳定性直接关系着冬奥系统的稳定运行,可以说牵一发动全身。为给北京冬奥提供极致的ECS稳定性体验,ECS数据稳定性团队和技术中台团队紧密合作,共同制定北京冬奥重保方案,包括重保风险识别、风险预防、风险消除、重保告警信息推送、变更风险管控、应急预案验证等。包括以下手段:
• 共享型实例识别并消除性能争抢风险
• 实例宿主机聚合度较高的情况进行合理热迁移打散
• 库存进行腾挪及资源预留
• 变更风险管控
• 底层宿主机风险巡检并评估规避
• 禁止资源腾挪热迁移以及告警发送更新
• rlock资源评估
在评估奥组委ECS库存资源时,我们发现北京政务云部分ECS实例规格存在库存不足情况,可能不足以满足赛事过程中的升配需求。为了更好的保障冬奥会顺利进行,应对非预期的扩容需求,我们决定对北京政务云机房进行腾挪扩容并做资源预留。同时也考虑到SPOT实例售卖可能影响公有云上冬奥客户扩容,对客户所在地域的SPOT水位进行了检查并做合理水位调整,尽力保障客户有扩容空间。
云网络方面,我们在稳定性单点风险梳理过程中发现Live Cloud系统存在单专线风险,如发生异常将直接影响赛事转播。若阿里云侧对应CSW设备出现故障,恢复SLA将是12小时。在确认运营商无法提供冗余线路的情况下,云网络与物理网络团队积极设计阿里云侧的异常处置机制并分别提供了完整方案。基于客户风险考虑,最终选择了物理网络同机架备份CSW设备的方案,虽然成本提高了,但是可把恢复时间控制在一小时以内。
数据库方面,针对宿主机、资源维度、实例维度以及管控任务维度进行体系化稳定性检查。