《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急

3.3.2故障应急


故障发生后,需要及时启动故障应急。故障应急是一个专业的协同工作。整个过程牵涉到多个角色以及需要各个角色高效有序地完成自己的工作。当系统发生问题时,应急的第一原则是,先止血恢复、再定位原因。要使用一切可能的手段让系统恢复到合理的服务水平上来。


故障应急是需要7*24H的应急值班机制,保证人工参与,一方面是因为报警准确率无法达到100%,需要人工判断是否真实异常。另一方面各业务部门的故障标准存在差异,误发、漏发都会产生较大影响,故障需要人工确认发送。且故障处理过程需要人工组织跟进,应急争分夺秒,Oncall时效难以保障。


故障应急效果的度量标准可从通告及时率、准确率、快恢执行率来考量。提升故障应急效果首先需要明确人员职责。下面对故障应急过程中的重点角色和职责进行介绍:


故障处理人(技术支持、监控值班):负责故障应急启动、确保应急有序、协调各方资源确保故障快速恢复;同时,在应急过程中,及时更新故障直播间内容,确保各方能够及时获取故障相关信息;同时视情况做好故障升级预告


应急处理人(研发、测试、稳定性接口人等):根据应急指挥人明确的分工,负责故障定位、快速恢复,按照SLA的要求响应故障、兜底同步进展


应急指挥人:根据故障等级由不同人员担任,如P1P2故障由业务部门稳定性负

责人或值班长承担;P3P4由技术团队TL或团队指定稳定性接口人承担。在故障发生时,第一时间(5分钟内)指定应急处理人的分工(A负责排查原因、B负责快速恢复、C负责同步进展),协调故障快速恢复,兜底同步故障进展。注意:在应急止血过程中,止血动作造成的影响不得大于故障本身的影响。


人员职责明确后,另一方面也需要相关平台产品支持来确保故障应急的高效、有序和透明。目前集团的故障应急协同都是基于钉钉群展开。


故障应急协同群:当故障发生后,系统会自动拉起故障应急协同群,并根据故障服务组的配置将相关人加入此群进行故障应急。

image.png

同时协同群还具备以下功能:

自动建群:支持将对应产品同学一键邀请至群内联合排查。

•一键电话会议:当故障发生后,技术支持会在故障应急协同群发起钉钉电话会议,系统会自动在应急协同群内同步入会链接,可根据需要加入电话会议。

故障看板:支持定期统计并推送故障情况统计数据。

相关文章
Sklearn库中的决策树模型有哪些主要参数?
Sklearn的决策树模型参数包括:criterion(默认"gini")用于特征选择,splitter(默认"best")决定划分点,max_depth限制树的最大深度,min_samples_split设置内部节点划分的最小样本数,min_samples_leaf定义叶子节点最少样本数,max_features(默认"auto")控制搜索最优划分时的特征数量,random_state设定随机数种子,max_leaf_nodes限制最大叶子节点数,以及min_impurity_decrease阻止不纯度减少不足的节点划分。
351 0
|
7月前
|
缓存 小程序 视频直播
基于uni-app+vite5+vue3实战短视频+直播+聊天app应用
基于uniapp+vue3+vite5从0-1实战搭建仿抖音/微信直播带货商城。集短视频+聊天+直播功能于一体。实现全屏沉浸式切换短视频/直播,支持编译运行到h5+小程序端+app端。
480 4
|
机器学习/深度学习 数据采集 存储
时间序列预测新突破:深入解析循环神经网络(RNN)在金融数据分析中的应用
【10月更文挑战第7天】时间序列预测是数据科学领域的一个重要课题,特别是在金融行业中。准确的时间序列预测能够帮助投资者做出更明智的决策,比如股票价格预测、汇率变动预测等。近年来,随着深度学习技术的发展,尤其是循环神经网络(Recurrent Neural Networks, RNNs)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU),在处理时间序列数据方面展现出了巨大的潜力。本文将探讨RNN的基本概念,并通过具体的代码示例展示如何使用这些模型来进行金融数据分析。
1395 2
|
10月前
|
人工智能 运维 Kubernetes
Websoft9 开源软件助力中小企业数字化的九大实战场景
本文探讨了开源软件在企业数字化转型中的核心价值,涵盖降本增效、灵活可控、技术前瞻性及生态协同等方面。同时,针对企业在开源应用中面临的挑战,如项目筛选、部署运维与系统集成难题,Websoft9提供了针对性解决方案。文章还解析了九大数字化实战场景,包括企业门户平台、智能数据分析、AI应用开发等,并给出了企业数字化实施路径建议。Websoft9通过“精选开源软件+标准化服务包”模式,已助力3000+企业实现数字化升级。
280 0
Websoft9 开源软件助力中小企业数字化的九大实战场景
|
Arthas 监控 安全
浅谈阿里开源JVM Sandbox(内含代码实战)
浅谈阿里开源JVM Sandbox(内含代码实战)
47904 6
浅谈阿里开源JVM Sandbox(内含代码实战)
|
存储 缓存 负载均衡
图解一致性哈希算法,看这一篇就够了!
近段时间一直在总结分布式系统架构常见的算法。前面我们介绍过布隆过滤器算法。接下来介绍一个非常重要、也非常实用的算法:一致性哈希算法。通过介绍一致性哈希算法的原理并给出了一种实现和实际运用的案例,带大家真正理解一致性哈希算法。
27830 66
图解一致性哈希算法,看这一篇就够了!
|
算法 编译器 C++
【C++ 概念区分】C++ 中覆盖,重写,隐藏 三者的区别
【C++ 概念区分】C++ 中覆盖,重写,隐藏 三者的区别
671 0
|
缓存 中间件 API
使用 Django 的异步特性提升 I/O 类操作的性能
使用 Django 的异步特性提升 I/O 类操作的性能
596 0
|
机器学习/深度学习
YOLOv8改进 | DAttention (DAT)注意力机制实现极限涨点
YOLOv8改进 | DAttention (DAT)注意力机制实现极限涨点
605 0