《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)

简介: 《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(下)

《云上大型赛事保障白皮书》——第七章 保障阵型与流程管理——7.2 云上大型赛事流程管理——7.2.1 基于业务影响的流程分级(上): https://developer.aliyun.com/article/1226049?groupCode=supportservice


7.2.1.2 故障问题应急


云上大型赛事一旦产生故障,其带来的负面影响不可估量,甚至可能会有政治性影响。对于故障问题,必须争分夺秒处理,和时间赛跑,因此基于前中后台的把服务过程做重的普通问题处理思路已不再适用,必须设计专门的短平快的故障应急流程。


7.2.1.2.1 故障应急流程之一:故障上报及通报

在感知故障的第一时刻,由前线上报故障,并迅速拉齐所有的相关方一起实时讨论,这里的相关方指客户、前线、中台、产品、决策层等。前线需要能及时准确的传递当前情况,中后台需要能快速的给出技术止血方案及优劣势,供决策层决策。在每一个重大进展节点,例如故障发现、决策止血方案、实施止血方案、故障恢复,需要及时同步到各相关方,做到信息的一致性。

得益于阿里云的技术风险建设,我们有专门的故障处理工具"云鼎",该工具可以基于故障情况,一键创建故障应急协同群,引入故障应急值守人员及决策者,并把当前进展及时通报给内部所有相关方,做到信息实时同步。


7.2.1.2.2 故障应急流程之二:故障应急原则

故障应急的第一原则为"止血快速",即如何以最快的速度把故障抹平恢复业务,具体的问题根因可留待之后详细排查,应急处置过程中以恢复运转为第一要义。举一个简单的例子,当发生流量突增触发EIP限速引发丢包导致业务受损时,不必详细排查流量突增的原因,第一件事一定是先把EIP的带宽升配。

故障应急的第二原则为"协同",故障的应急处置可能需要多个产品方参与,在这个过程中,各产品方需要协同合作,不仅仅考虑自己的细分领域是否故障,也需要有整体框架思维,以协同的方式一起参与快恢。

阿里云的应急协同工具"云鼎",提供了产品化的故障应急协同相关能力,确保故障应急的高效、有序和透明。在一键拉起的故障应急协同群,提供了便于应急的签到响应、应急作战室、电话会议、邀请排查等相关功能,同时还提供了舆情聚类平台、GOC应急工作台、应急基础信息、应急看板作为底层支撑。


7.2.1.2.3 故障应急流程之三:故障复盘

复盘源于围棋术语。指对局完毕后,复演该盘棋的记录,以检查对局中招法的优劣与得失关键。当故障发生后,如果不及时去对故障的根因和处理过程进行复盘,很难保证下次类似的问题不会出现甚至扩大化,所以故障复盘对于故障应急流程非常重要。

复盘过程包括:过程回溯,即抽丝剥茧的检查本次故障发生原因、处置过程中各个团队如何处理、处理流程是否可以再优化等;问题剖析,即深层次剖析问题根因,是客户侧问题还是产品侧问题、有没有优化点、如何防范再次发生等;经验总结,即给出可落地的短期治标Action、长期治本Action、以及沉淀经验和教训等。

相关文章
|
开发框架 Java 测试技术
SpringBoot3 响应式网络请求客户端
SpringBoot3 响应式网络请求客户端
|
消息中间件 关系型数据库 Kafka
Flink CDC可以从Kafka消费数据并写入到Doris中
Flink CDC可以从Kafka消费数据并写入到Doris中
1146 2
|
21天前
|
SQL Java 数据库连接
SpringBoot整合MyBatis-Flex保姆级教程,看完就能上手!
MyBatis-Flex 作为一个现代化的 MyBatis 增强框架,在保持 MyBatis 灵活性的同时,提供了更多便捷的功能,特别适合需要复杂查询和高性能要求的项目。
244 0
|
SQL Java 数据库
Spring Authorization Server 1.1 扩展实现 OAuth2 密码模式与 Spring Cloud 的整合实战(上)
Spring Authorization Server 1.1 扩展实现 OAuth2 密码模式与 Spring Cloud 的整合实战(上)
|
5月前
|
SQL Java 数据库连接
MyBatis-Flex 实战:极简 CRUD + 高性能分页,吊打传统 MyBatis 的新一代持久层框架
MyBatis-Flex作为新一代Java持久层框架,在MyBatis的灵活性和MyBatis-Plus的便捷性之间实现了完美平衡。本文详细介绍了MyBatis-Flex的环境搭建、核心特性和实战应用,包括:1. 5分钟快速初始化项目配置;2. 通过注解实现零XML的CRUD操作;3. 灵活的QueryWrapper动态SQL构建;4. 高效分页查询实现;5. 关联查询解决方案;6. 编程式事务管理。相比MyBatis-Plus,MyBatis-Flex具有更简洁的API、更高的性能和更低的学习成本。
1339 1
|
安全 前端开发 Java
Spring Authorization Server 1.1 扩展实现 OAuth2 密码模式与 Spring Cloud 的整合实战(下)
Spring Authorization Server 1.1 扩展实现 OAuth2 密码模式与 Spring Cloud 的整合实战(下)
|
存储 安全 Java
Spring Security与OAuth2集成开发
Spring Security与OAuth2集成开发
|
Kubernetes 算法 NoSQL
动态扩缩容下的全局流水号设计
该文介绍了在动态扩缩容场景下如何使用雪花算法生成全局流水号。雪花算法生成的ID由时间戳、工作机器ID和序列号组成。在K8s环境中,通过Redis存储当前workerId的最大值,每次生成时加1并取模,确保workerId在0-1023范围内。文中提供了实现雪花算法的`SnowflakeIdWorker`类示例,并展示了两种动态获取workerId的方法:一是利用Redis incr操作;二是通过Nacos服务发现获取IP和端口信息计算。此外,还提到了其他获取workId和dataCenterId的策略,如使用本地IP和主机名。
761 1
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
1671 3
|
编解码 Java Spring
Spring Boot(14)——使用WebClient
使用WebClient WebClient是Spring WebFlux模块提供的一个非阻塞的基于响应式编程的进行Http请求的客户端工具,从Spring5.0开始提供。Spring Boot应用中添加如下依赖将自动添加Spring WebFlux依赖,从而可以使用WebClient。
4978 0