《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.4 冬奥重保--稳定性专项

6.2.4 冬奥重保--稳定性专项


在赛前,我们成立了稳定性专项,对阿里云各产品包括库存水位、高可用风险、产品侧应急预案等等都进行了专项梳理。通过系统化的稳定性排查项来规避产品侧的部分风险。

以ECS为例,本次冬奥会北京奥组委、奥林匹克国际官网、奥林匹克频道OCS、奥林匹克广播服务公司OBS等奥运核心系统全面上云,神龙ECS是冬奥系统运行的核心底座,其稳定性直接关系着冬奥系统的稳定运行,可以说牵一发动全身。为给北京冬奥提供极致的ECS稳定性体验,ECS数据稳定性团队和技术中台团队紧密合作,共同制定北京冬奥重保方案,包括重保风险识别、风险预防、风险消除、重保告警信息推送、变更风险管控、应急预案验证等。包括以下手段:

共享型实例识别并消除性能争抢风险

实例宿主机聚合度较高的情况进行合理热迁移打散

库存进行腾挪及资源预留

变更风险管控

底层宿主机风险巡检并评估规避

禁止资源腾挪热迁移以及告警发送更新

rlock资源评估

在评估奥组委ECS库存资源时,我们发现北京政务云部分ECS实例规格存在库存不足情况,可能不足以满足赛事过程中的升配需求。为了更好的保障冬奥会顺利进行,应对非预期的扩容需求,我们决定对北京政务云机房进行腾挪扩容并做资源预留。同时也考虑到SPOT实例售卖可能影响公有云上冬奥客户扩容,对客户所在地域的SPOT水位进行了检查并做合理水位调整,尽力保障客户有扩容空间。

云网络方面,我们在稳定性单点风险梳理过程中发现Live Cloud系统存在单专线风险,如发生异常将直接影响赛事转播。若阿里云侧对应CSW设备出现故障,恢复SLA将是12小时。在确认运营商无法提供冗余线路的情况下,云网络与物理网络团队积极设计阿里云侧的异常处置机制并分别提供了完整方案。基于客户风险考虑,最终选择了物理网络同机架备份CSW设备的方案,虽然成本提高了,但是可把恢复时间控制在一小时以内。

数据库方面,针对宿主机、资源维度、实例维度以及管控任务维度进行体系化稳定性检查。

1684908301017.png


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
网络协议 Linux
nmcli命令详解
【4月更文挑战第9天】`nmcli`是Red Hat 7及CentOS 7后的网络管理命令,用于配置网卡并持久化设置。它可以显示网络连接信息(如`connection show`、`dev status`),控制网卡状态(启用、停用、删除连接),以及修改配置(如IP地址、DNS)。其他功能包括检查NetworkManager状态、开关网络连接和查看系统网络状态。要了解全部详情和高级用法,建议查阅相关文档。
2163 1
|
JSON 网络安全 数据安全/隐私保护
gitlab--安装和配置
gitlab--安装和配置
|
机器学习/深度学习 人工智能 云计算
2023年中国算力大会,阿里云荣获三项荣誉!
2023年中国算力大会,阿里云荣获三项荣誉!
2023年中国算力大会,阿里云荣获三项荣誉!
|
11月前
|
存储 人工智能 数据库
云时代的技术革命:解锁无限可能的云计算
云时代的技术革命:解锁无限可能的云计算
|
11月前
|
人工智能 Android开发 iOS开发
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
Shortcuts for Android(SFA)是一款安卓自动化工具,支持语音创建快捷指令,实现听歌、导航、发消息等操作。操作简单,提升效率,快来体验语音控制的便捷!
1366 0
安卓版快捷指令,加了AI语音可以一句话操作v0.2.7
|
JSON 监控 供应链
深度实操:京东商品详情API接入全流程与技术要点剖析
京东商品详情API接口用于获取商品基础信息(标题、价格、库存状态、用户评价等),支持单个或多个商品查询。适用于商品列表展示、竞品分析、价格监控、库存管理、营销活动和数据分析等场景。通过发送HTTP请求(GET/POST)调用接口,服务器返回JSON格式数据,可使用Python等语言解析处理。示例代码中展示了如何用requests库调用API并获取商品详情。
|
关系型数据库 Java MySQL
|
Kubernetes 容器 Perl
【赵渝强老师】K8s中Pod中的初始化容器
Kubernetes的Pod包含业务容器、基础容器、初始化容器和临时容器。初始化容器在业务容器前运行,用于执行必要的初始化任务。本文介绍了初始化容器的作用、配置方法及优势,并提供了一个示例。
402 1
|
Dart 索引
flutter key 详解
flutter key 详解
421 0
flutter key 详解
|
SQL JSON 分布式计算
【大数据学习篇10】Spark项目实战~网站转化率统计
【大数据学习篇10】Spark项目实战~网站转化率统计
912 0
【大数据学习篇10】Spark项目实战~网站转化率统计