《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)

简介: 《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)

《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上): https://developer.aliyun.com/article/1226049?groupCode=supportservice


7.2.1.2 故障问题应急


云上大型赛事一旦产生故障,其带来的负面影响不可估量,甚至可能会有政治性影响。对于故障问题,必须争分夺秒处理,和时间赛跑,因此基于前中后台的把服务过程做重的普通问题处理思路已不再适用,必须设计专门的短平快的故障应急流程。


7.2.1.2.1 故障应急流程之一:故障上报及通报

在感知故障的第一时刻,由前线上报故障,并迅速拉齐所有的相关方一起实时讨论,这里的相关方指客户、前线、中台、产品、决策层等。前线需要能及时准确的传递当前情况,中后台需要能快速的给出技术止血方案及优劣势,供决策层决策。在每一个重大进展节点,例如故障发现、决策止血方案、实施止血方案、故障恢复,需要及时同步到各相关方,做到信息的一致性。

得益于阿里云的技术风险建设,我们有专门的故障处理工具"云鼎",该工具可以基于故障情况,一键创建故障应急协同群,引入故障应急值守人员及决策者,并把当前进展及时通报给内部所有相关方,做到信息实时同步。


7.2.1.2.2 故障应急流程之二:故障应急原则

故障应急的第一原则为"止血快速",即如何以最快的速度把故障抹平恢复业务,具体的问题根因可留待之后详细排查,应急处置过程中以恢复运转为第一要义。举一个简单的例子,当发生流量突增触发EIP限速引发丢包导致业务受损时,不必详细排查流量突增的原因,第一件事一定是先把EIP的带宽升配。

故障应急的第二原则为"协同",故障的应急处置可能需要多个产品方参与,在这个过程中,各产品方需要协同合作,不仅仅考虑自己的细分领域是否故障,也需要有整体框架思维,以协同的方式一起参与快恢。

阿里云的应急协同工具"云鼎",提供了产品化的故障应急协同相关能力,确保故障应急的高效、有序和透明。在一键拉起的故障应急协同群,提供了便于应急的签到响应、应急作战室、电话会议、邀请排查等相关功能,同时还提供了舆情聚类平台、GOC应急工作台、应急基础信息、应急看板作为底层支撑。


7.2.1.2.3 故障应急流程之三:故障复盘

复盘源于围棋术语。指对局完毕后,复演该盘棋的记录,以检查对局中招法的优劣与得失关键。当故障发生后,如果不及时去对故障的根因和处理过程进行复盘,很难保证下次类似的问题不会出现甚至扩大化,所以故障复盘对于故障应急流程非常重要。

复盘过程包括:过程回溯,即抽丝剥茧的检查本次故障发生原因、处置过程中各个团队如何处理、处理流程是否可以再优化等;问题剖析,即深层次剖析问题根因,是客户侧问题还是产品侧问题、有没有优化点、如何防范再次发生等;经验总结,即给出可落地的短期治标Action、长期治本Action、以及沉淀经验和教训等。

相关文章
|
SQL 关系型数据库 分布式数据库
数据管理DMS操作报错合集之DMS SQL执行失败且无法看到原因,如何解决
数据管理DMS(Data Management Service)是阿里云提供的数据库管理和运维服务,它支持多种数据库类型,包括RDS、PolarDB、MongoDB等。在使用DMS进行数据库操作时,可能会遇到各种报错情况。以下是一些常见的DMS操作报错及其可能的原因与解决措施的合集。
|
机器学习/深度学习 算法
概率分布深度解析:PMF、PDF和CDF的技术指南
本文将深入探讨概率分布,详细阐述概率质量函数(PMF)、概率密度函数(PDF)和累积分布函数(CDF)这些核心概念,并通过实际示例进行说明。
1014 15
概率分布深度解析:PMF、PDF和CDF的技术指南
|
存储 安全 Java
Spring Security与OAuth2集成开发
Spring Security与OAuth2集成开发
|
人工智能 JSON 决策智能
crewAI:一个让 AI 助手们像团队一样协作智能框架
crewAI:一个让 AI 助手们像团队一样协作智能框架
983 0
|
存储 安全 Java
Spring Boot中的OAuth2认证与授权
Spring Boot中的OAuth2认证与授权
|
SQL 关系型数据库 MySQL
mysql结果垂直显示-\g和\G的用法
mysql结果垂直显示-\g和\G的用法
620 0
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
1311 3
|
人工智能 Java 数据库
Google Earth Engine(GEE)——北美当前和预测的气候数据
Google Earth Engine(GEE)——北美当前和预测的气候数据
284 0
|
XML Java 数据格式
使用dom4j工具:设置输出两种xml格式-紧密型和美观型
今天学习使用不知名大佬的domj4 jar包以及用到的几个其他的包,来简单写一个xml
444 0
使用dom4j工具:设置输出两种xml格式-紧密型和美观型
|
Java 网络架构 索引
Elasticsearch 如何实现索引的伪·命名空间
Elasticsearch 如何实现索引的伪·命名空间
111 0