《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

6.2.4 冬奥重保--稳定性专项


在赛前,我们成立了稳定性专项,对阿里云各产品包括库存水位、高可用风险、产品侧应急预案等等都进行了专项梳理。通过系统化的稳定性排查项来规避产品侧的部分风险。

以ECS为例,本次冬奥会北京奥组委、奥林匹克国际官网、奥林匹克频道OCS、奥林匹克广播服务公司OBS等奥运核心系统全面上云,神龙ECS是冬奥系统运行的核心底座,其稳定性直接关系着冬奥系统的稳定运行,可以说牵一发动全身。为给北京冬奥提供极致的ECS稳定性体验,ECS数据稳定性团队和技术中台团队紧密合作,共同制定北京冬奥重保方案,包括重保风险识别、风险预防、风险消除、重保告警信息推送、变更风险管控、应急预案验证等。包括以下手段:

共享型实例识别并消除性能争抢风险

实例宿主机聚合度较高的情况进行合理热迁移打散

库存进行腾挪及资源预留

变更风险管控

底层宿主机风险巡检并评估规避

禁止资源腾挪热迁移以及告警发送更新

rlock资源评估

在评估奥组委ECS库存资源时,我们发现北京政务云部分ECS实例规格存在库存不足情况,可能不足以满足赛事过程中的升配需求。为了更好的保障冬奥会顺利进行,应对非预期的扩容需求,我们决定对北京政务云机房进行腾挪扩容并做资源预留。同时也考虑到SPOT实例售卖可能影响公有云上冬奥客户扩容,对客户所在地域的SPOT水位进行了检查并做合理水位调整,尽力保障客户有扩容空间。

云网络方面,我们在稳定性单点风险梳理过程中发现Live Cloud系统存在单专线风险,如发生异常将直接影响赛事转播。若阿里云侧对应CSW设备出现故障,恢复SLA将是12小时。在确认运营商无法提供冗余线路的情况下,云网络与物理网络团队积极设计阿里云侧的异常处置机制并分别提供了完整方案。基于客户风险考虑,最终选择了物理网络同机架备份CSW设备的方案,虽然成本提高了,但是可把恢复时间控制在一小时以内。

数据库方面,针对宿主机、资源维度、实例维度以及管控任务维度进行体系化稳定性检查。

1684908301017.png


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
Elasticsearch 向量搜索
Elasticsearch 向量搜索
893 0
解决Java中的MissingResourceException异常的常见方法
解决Java中的MissingResourceException异常的常见方法
|
12月前
|
监控 Java Perl
使用jstat工具来监控G1垃圾回收器的性能
使用jstat工具来监控G1垃圾回收器的性能
Elasticsearch 批量更新
讲述Elasticsearch批量更新索引指定字段操作
|
存储 索引
Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系
Elasticsearch中父子文档的关联:利用Join类型赋予文档的层级关系
|
存储 SQL 大数据
矢量数据库与传统数据库的对比:优势与挑战
【4月更文挑战第30天】矢量数据库与传统数据库对比:矢量数据库擅长处理高维数据和相似性搜索,适用于AI及大数据场景,但技术复杂度高,集成与数据迁移具挑战;传统数据库成熟稳定,简单易用且支持广泛,但在处理非结构化数据上不足。选择需依据具体业务需求。
|
对象存储
milvus的compaction分析(小文件合并大文件)
milvus的compaction分析(小文件合并大文件)
1183 0
|
容灾 关系型数据库 MySQL
Centos通过Docker搭建MySQL的PXC集群
Centos通过Docker搭建MySQL的PXC集群
774 0
Centos通过Docker搭建MySQL的PXC集群
|
SQL 分布式计算 Java
Dolphinscheduler海豚调度器实现离线任务提交安装实录
学习一个东西,个人认为最好的方式是:官网+源码+实践。
2738 0
Dolphinscheduler海豚调度器实现离线任务提交安装实录
|
缓存 固态存储 Java
Elasticesearch内存详解(七)——Fielddata Cache
介绍Elasticesearch内存的Fielddata Cache
1596 0
Elasticesearch内存详解(七)——Fielddata Cache