4.3.3 热点事件护航保障流程
4.3.3.1 明确护航目标
明确本次活动在业务上最终需要达到什么样的目标即可符合预期。护航目标主要 包含整体业务活动目标明确与整体活动架构方案确认,通俗来讲在护航前需要对客户 的业务架构、应用架构、数据架构、技术架构等进行梳理及对保障方案进行确认,并 通过压测数据对本次活动的流量等指标进行评估,通过不断探底来确保云上可以完美 承载业务压力即为护航目标。
云上护航服务checklist |
||||||
护航流程 |
检查项 |
任务评估 |
负责人 |
开始 时间 |
完成 时间 |
备注及 问题风险 |
护航目标对焦 |
业务目标确认 |
活动预估流量/访问量 (QPS/TPS) |
/ |
/ |
/ |
/ |
技术目标确认 |
安全风控 (DDOS峰值、WEB防护) |
/ |
/ |
/ |
/ |
|
活动日期确认 |
高峰时间点 |
/ |
/ |
/ |
/ |
|
保障方式确认 |
保障方案沟通+活动驻场支持, 其余远程保障为主 |
/ |
/ |
/ |
/ |
系统容量分析 |
资源需求报备 |
资源需求评估, 提前一个月报备阿里云 |
/ |
/ |
/ |
/ |
资源准备预留 |
阿里云为客户 准备并预留资源 |
/ |
/ |
/ |
/ |
|
资源风险识别 |
核心实例梳理 |
ECS、RDS、SLB、Redis DRDS、MQ、ES等 |
/ |
/ |
/ |
/ |
资源使用率巡检 |
CPU/MEM/IOPS/ 磁盘空间等 |
/ |
/ |
/ |
/ |
|
安全风险识别 |
账户安全 |
多因素认证、操作审计、 访问控制 |
/ |
/ |
/ |
/ |
账户安全 |
堡垒机访问权限 *** |
/ |
/ |
/ |
/ |
|
业务安全 |
安全产品接入状态 |
/ |
/ |
/ |
/ |
|
验收 |
方案确认 |
方案确认 |
/ |
/ |
/ |
/ |
整体验收 |
验收报告确认 |
/ |
/ |
/ |
/ |
|
复盘 |
大促复盘 |
复盘保障得失,总结经验, 沉淀流程工具 |
/ |
/ |
/ |
/ |
4.3.3.2 设计护航方案
护航方案的设计理念,1、确保客户业务无损的在云上运行,2、确保服务的即时 性,拉通产品7*24小时保障护航,3、设计相关的应急预案,在业务有损的情况下有 效回滚恢复。
护航应急方案 |
|||||
重点大项 |
事项描述 |
责任人 |
计划完成时间 |
实际完成时间 |
备注 |
预案 |
提前预案 |
/ |
/ |
/ |
预热 |
紧急预案 |
/ |
/ |
/ |
各个产品的紧急落地预案 |
|
现场预案 |
/ |
/ |
/ |
播报流程、问题升级流程 |
|
监控告警项配置 |
护航群预警 |
/ |
/ |
/ |
告警推送/风险巡检同步 |
监控告警配置 |
/ |
/ |
/ |
ECS、SLB等监控大盘及告警配置 |
|
服务大盘 |
护航群建设 |
/ |
/ |
/ |
|
应急人员 |
/ |
/ |
/ |
ECS、SLB等应急人员名单 |
4.3.3.3 风险巡检及评估
通过架构梳理及全链路评估,对架构及全链路风险进行识别,达到风险提前规
避的作用。
活动巡检风险 |
|||||
风险描述 |
风险等级 |
风险规避方案 |
责任人 |
风险规避时间 |
备注 |
* |
低 |
* |
* |
* |
* |
* |
中 高 |
* |
* |
* |
* |
4.3.3.4 护航事件记录
记录护航时间段出现的事件、风险及重点时间节点等,在后续可以根据记录的
问题进行针对性复盘。
护航事件记录 |
||||
日期 |
事件描述 |
责任人 |
是否解决 |
备注 |
|
|
|
|
|
4.3.3.5 护航大屏
大屏功能:
可以实时关注客户业务实例的资源使用及网络情况,并能实时关注客户侧保有量 从而间接体现出业务高峰期所对应云上的压力。为上云的客户提供了,可扩展性、可 复制性的便利。