《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急

3.3.2故障应急


故障发生后,需要及时启动故障应急。故障应急是一个专业的协同工作。整个过程牵涉到多个角色以及需要各个角色高效有序地完成自己的工作。当系统发生问题时,应急的第一原则是,先止血恢复、再定位原因。要使用一切可能的手段让系统恢复到合理的服务水平上来。


故障应急是需要7*24H的应急值班机制,保证人工参与,一方面是因为报警准确率无法达到100%,需要人工判断是否真实异常。另一方面各业务部门的故障标准存在差异,误发、漏发都会产生较大影响,故障需要人工确认发送。且故障处理过程需要人工组织跟进,应急争分夺秒,Oncall时效难以保障。


故障应急效果的度量标准可从通告及时率、准确率、快恢执行率来考量。提升故障应急效果首先需要明确人员职责。下面对故障应急过程中的重点角色和职责进行介绍:


故障处理人(技术支持、监控值班):负责故障应急启动、确保应急有序、协调各方资源确保故障快速恢复;同时,在应急过程中,及时更新故障直播间内容,确保各方能够及时获取故障相关信息;同时视情况做好故障升级预告


应急处理人(研发、测试、稳定性接口人等):根据应急指挥人明确的分工,负责故障定位、快速恢复,按照SLA的要求响应故障、兜底同步进展


应急指挥人:根据故障等级由不同人员担任,如P1P2故障由业务部门稳定性负

责人或值班长承担;P3P4由技术团队TL或团队指定稳定性接口人承担。在故障发生时,第一时间(5分钟内)指定应急处理人的分工(A负责排查原因、B负责快速恢复、C负责同步进展),协调故障快速恢复,兜底同步故障进展。注意:在应急止血过程中,止血动作造成的影响不得大于故障本身的影响。


人员职责明确后,另一方面也需要相关平台产品支持来确保故障应急的高效、有序和透明。目前集团的故障应急协同都是基于钉钉群展开。


故障应急协同群:当故障发生后,系统会自动拉起故障应急协同群,并根据故障服务组的配置将相关人加入此群进行故障应急。

image.png

同时协同群还具备以下功能:

自动建群:支持将对应产品同学一键邀请至群内联合排查。

•一键电话会议:当故障发生后,技术支持会在故障应急协同群发起钉钉电话会议,系统会自动在应急协同群内同步入会链接,可根据需要加入电话会议。

故障看板:支持定期统计并推送故障情况统计数据。

相关文章
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
4417 1
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
11月前
|
监控 安全 网络安全
VMware Cloud Foundation Operations 9.0 新增功能
VMware Cloud Foundation Operations 9.0 新增功能
228 0
|
6月前
|
人工智能 缓存 监控
Coze AI 智能体工作流配置与实战全指南
Coze工作流让AI智能体从问答工具进化为复杂任务执行者。通过可视化编排,可构建如智能旅行规划等多步骤自动化系统,支持并行处理、条件分支与错误恢复。结合触发、LLM、工具与判断节点,实现高效、可维护的智能流程,助力AI成为真正的“数字同事”。
|
11月前
|
缓存 小程序 视频直播
基于uni-app+vite5+vue3实战短视频+直播+聊天app应用
基于uniapp+vue3+vite5从0-1实战搭建仿抖音/微信直播带货商城。集短视频+聊天+直播功能于一体。实现全屏沉浸式切换短视频/直播,支持编译运行到h5+小程序端+app端。
631 4
|
机器学习/深度学习 敏捷开发 人工智能
2025产品需求管理最佳实践:从流程优化到工具选型 详解项目需求管理实战
本文深入探讨产品需求管理的核心概念与全流程优化方法,涵盖需求采集、分析、优先级排序及落地实现等关键环节。通过多维度需求采集、科学评估与敏捷迭代,结合团队角色分工,确保需求价值最大化。同时对比评测板栗看板、Jira、Axosoft等管理工具,并展望AI赋能下的智能生成、预测性分析与自动化流程新趋势,助力企业精准把握市场动态,打造爆款产品。掌握需求管理精髓,是产品成功的关键驱动力。
|
运维 监控 安全
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.1 变更标准流程规范
1164 0
|
缓存 中间件 API
使用 Django 的异步特性提升 I/O 类操作的性能
使用 Django 的异步特性提升 I/O 类操作的性能
671 0
|
运维 数据可视化 中间件
一文搞懂SaaS、PaaS、IaaS的概念和异同
一文搞懂SaaS、PaaS、IaaS的概念和异同
67420 6
一文搞懂SaaS、PaaS、IaaS的概念和异同

热门文章

最新文章