《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3) https://developer.aliyun.com/article/1232029?groupCode=supportservice
6. 故障演练
演练目的是需要验证各模块的健壮性,以及在异常发生时,相关告警、异常影响范围是否符合预期以及通过故障处理预案是否可按预期恢复。演练参考用例可参考:
7. 应急保障
OB前需要组织前中后场配合的护航保障团队以应对当天的突发情况。TAM一般作为客户的直接对接人,在现场通过监控告警协助客户发现异常,并进行初步定界和技术判断,如判断为阿里云问题或疑难问题会协同中台团队中的产品垂直线专家AES一同进行分析,如确定为产品问题会引入研发进一步协同处理。如定位后需要对线上环境进行修复,TAM需要对方案进行风险评估,并和客户讨论敲定最终修复方案。
OB护航异常处理流程如下:
常见问题排障思路参考图: