4.3.4 重大活动和赛事保障
4.3.4.1 保障概述
重大活动和顶级赛事期间阿里云对客户业务提供全程业务护航保障服务,针对 客户业务特性和资源使用情况提前梳理风险点并制定保障方案,确保期间业务平稳 运行。
4.3.4.2 保障信息同步
保障前阿里云与客户共同确认保障时间段以及保障期间管控动作,确认资源需 求、变更管控、在线值守、信息同步机制等。
4.3.4.3 巡检与风险治理
业务类型 |
巡检项 |
结论 |
机房物理设施 |
电力、空调、油料储备 |
无风险 |
网络 |
物理网络设备、水位。 |
无风险 |
云网络实例规格、水位。 |
无风险 |
|
计算 |
计算资源容量、水位、风险。 |
无风险 |
存储 |
云盘、OSS水位;容量和QPS情况。 |
无风险 |
安全 |
安全产品规格合理,各类产品配置齐全。 |
无风险 |
CDN |
容量检查,带宽储备充足。 |
无风险 |
DCDN |
容量检查,满足预估突发请求。 |
无风险 |
监控 |
核实护航域名,配置监控告警。 |
无风险 |
接口 |
数据上报接口测试,数据正常上报。 |
无风险 |
客户证书 |
域名证书检查。 |
无风险 |
4.3.4.4 应急预案
序号 |
异常情况 |
预案 |
1 |
机房电力、空凋等物理环境异常。 |
确保油运行正常,有量储备充足。 空调系统备份正常。 |
2 |
物理网络水位异常 |
通知客户,业务流量调度 |
3 |
云网络水位异常 |
自动限速并通知客户,客户调整流量 |
4 |
存储水位异常 |
产研响应处理 |
5 |
OSS状态码异常 |
配置告警,重保团队响应处理 |
6 |
单个域名或节点异常 |
配置告警,重保团队响应处理 |
7 |
直播点播整体带宽超限 |
根据大盘水位决策承接或切量 |
8 |
直播推流异常 |
配置告警,重保团队响应处理 |
9 |
批量卡顿或拉流失败 |
应急响应,执行快恢和兜底方案。 |
4.3.4.5 保障演练
阿里云保障团队根据保障业务类型选定多个场景进行全链路保障演练。演练前后 端团队按照实战场景触发问题上报、问题升级、应急处置等各个环节,验证机制流程 和各项预案的有效性。
4.3.4.6 保障值守
姓名 |
联系方式 |
职责 |
张XX |
/ |
保障总指挥 |
李XX |
/ |
客户服务负责人-值班长 |
王XX |
/ |
客户服务工程师 |
赵XX |
/ |
解决方案负责人 |