3.3.2故障应急
故障发生后,需要及时启动故障应急。故障应急是一个专业的协同工作。整个过程牵涉到多个角色以及需要各个角色高效有序地完成自己的工作。当系统发生问题时,应急的第一原则是,先止血恢复、再定位原因。要使用一切可能的手段让系统恢复到合理的服务水平上来。
故障应急是需要7*24H的应急值班机制,保证人工参与,一方面是因为报警准确率无法达到100%,需要人工判断是否真实异常。另一方面各业务部门的故障标准存在差异,误发、漏发都会产生较大影响,故障需要人工确认发送。且故障处理过程需要人工组织跟进,应急争分夺秒,Oncall时效难以保障。
故障应急效果的度量标准可从通告及时率、准确率、快恢执行率来考量。提升故障应急效果首先需要明确人员职责。下面对故障应急过程中的重点角色和职责进行介绍:
故障处理人(技术支持、监控值班):负责故障应急启动、确保应急有序、协调各方资源确保故障快速恢复;同时,在应急过程中,及时更新故障直播间内容,确保各方能够及时获取故障相关信息;同时视情况做好故障升级预告
应急处理人(研发、测试、稳定性接口人等):根据应急指挥人明确的分工,负责故障定位、快速恢复,按照SLA的要求响应故障、兜底同步进展
应急指挥人:根据故障等级由不同人员担任,如P1P2故障由业务部门稳定性负
责人或值班长承担;P3P4由技术团队TL或团队指定稳定性接口人承担。在故障发生时,第一时间(5分钟内)指定应急处理人的分工(A负责排查原因、B负责快速恢复、C负责同步进展),协调故障快速恢复,兜底同步故障进展。注意:在应急止血过程中,止血动作造成的影响不得大于故障本身的影响。
人员职责明确后,另一方面也需要相关平台产品支持来确保故障应急的高效、有序和透明。目前集团的故障应急协同都是基于钉钉群展开。
故障应急协同群:当故障发生后,系统会自动拉起故障应急协同群,并根据故障服务组的配置将相关人加入此群进行故障应急。
同时协同群还具备以下功能:
•自动建群:支持将对应产品同学一键邀请至群内联合排查。
•一键电话会议:当故障发生后,技术支持会在故障应急协同群发起钉钉电话会议,系统会自动在应急协同群内同步入会链接,可根据需要加入电话会议。
•故障看板:支持定期统计并推送故障情况统计数据。