3.1.4.3 保障动作&流程
赛前准备阶段是排除风险,减少后续问题的重要阶段,准备阶段围绕以下几个方面进行:
1、信息收集,用于理解客户需要用到什么产品,在保障时需要关注哪些方面。
信息包括:
•赛事所用的域名/流名、预计突发带宽和QOS情况(如无,可通过此前类似活动 评估)
•客户是否有特殊的推/拉流架构,是否有特殊的录制架构,可与架构师了解哪 环节易出问题,或通过过往工单分析
2、此次活动中,有几种产品参与,哪些存在隐藏的扩容需求。直播通常围绕视 频直播和CDN产品,若客户有自建的直播架构,可能还依赖于ECS/ENS等资源。提前了解资源存量,也可拉通各个产品一同保障。
•主动监控
•若有较长的准备时间,可主动监控客户域名数据,针对错误码增高的时刻进行 排查和优化,可以提前发现调度不合理或节点异常的问题,减少在赛事活动期间发生 问题的概率。
•若无提前优化的时间,则主要是在赛事期间出现问题时能够主动发现,快速处理。
•保障通道疏通
•在准备期间需要设想风险点,针对不同的问题先准备好对应方案,当后续遇到 问题时,有顺畅的升级/恢复/扩容手段。
•赛事活动期间主要考验对问题的快速发现解决的能力,此时发现的问题已经产 生对应后果,需要优先止血,再细查问题。此时也考验在赛前准备阶段的三个方面是否完善。
那此时,技术服务的决定性因素在哪里?
•利用过往对客服务的经验,对重复问题或相似问题快速识别并解决,或者提供对应信息给到产研侧。
•站在客户和业务侧的方面,去判断一个止血方案是否合适,是否需要添加或删 除哪些内容。
•分配人手负责沟通,让负责排查的同学无需分心担负沟通成本。
当经历过重保期间的紧急问题后,我们可以发现,我们前期准备好的升级通道、 客户信息、应对方案是非常有效的。重保期间更侧重的是让事态沿着预想的情况发展,越少的变数和意外情况,说明重保的效果越好。
赛事结束后,便是一些收尾阶段,通常是由商务对接临时扩容的退费减容事务。 服务团队需要再关注下业务指标是否有异常,至少业务流量下跌趋于稳定后才能结束重保。
此后,便是将重保的整个过程梳理一遍,将赛前准备/赛中情况/赛后分析整理为 可复制可沿用的方案留存,后续其他团队接手时,可通过该方案快速上手,避免因为 团队变换给用户带来服务体验的缺失。