《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义

3.1 故障等级定义


一个完整的故障等级定义一般由业务场景(功能模块)+影响面+对应等级组成。从功能受损后对用户实际受影响的程度可以简单将模块分为核心功能、次核心功能和非核心功能等模块,核心功能模块主要是直接影响用户使用服务的,非核心模块影响到用户体验,但是对主路径功能没有重大影响的。例如,交易创建和支付类的毫无疑问是核心模块,其他查询类,展示类的功能为非核心功能模块。次核心功能模块,比如说退款、提现、绑卡等功能,会间接影响用户使用核心功能,但用户可接受一定时间的不可用的,介于核心和非核心之间的一种分类。


影响面主要是用来描述某个功能模块受损后的现象和结果,最常使用的指标是成功量、成功率、耗时、影响用户数、失败量、影响时长等指标,其中使用成功量比较常见且直观。


最后,根据业务层面对影响面的判断,对不同级别的影响面匹配不同的故障等级(P1-P4)。


标准化故障等级定义制定的思路:

依据业务属性先将业务划分为大的子类(业务整体技术架构层面)。

将每个子类业务里的核心模块和次核心、非核心模块区分开来(功能层面)。

根据各功能模块的业务量级去适配不同的影响面及故障等级定义模板。


其中根据业务量级适配不同的影响面及其对应的故障等级定义模板是这个思路的重点。下面来举例解释(仅作参考,业务可根据自身实际情况酌情使用部分推荐值):


对于核心功能:

•大体量的情况下(例如:高峰期分钟级超过1000TPS,日均100W以上),建议分钟级成功量下跌30%及以上定义为P1。

中体量的情况下(例如:高峰期分钟级100-1000TPS,日均10-100W),建议10分钟内总体成功量下跌45%及以上定义为P1。

•小体量的情况下(例如高峰期分钟级10-100TPS,日均1-10W),15/30分钟内总体成功量下跌45%及以上定义为P1。

•更小体量的业务(日均小于1WTPS),可使用60分钟内总体成功量下跌45%及以上定义为P2。

在最高故障等级P1确定的情况下,依次降低影响面,形成P2-P4的标准(大体

量业务的主路径失败可以考虑P3起,不设置P4级别故障),如30%-20%,

45%-30%等影响面对应剩余等级。


对于次核心功能(如营销类,注册类等业务),可以在核心功能的基础上统一降低一个级别;

对于非核心功能(如查询类,后台使用等业务),可以在核心功能的基础上统一降低两个级别;


由此生成一个故障等级定义的模板可以如下所示(实际使用中可适当精简,避免过于冗余)


image.png

故障等级定义制定好以后,需要得到技术负责人的审批,以及后续面向技术团队和上下游团队的公示,必要时需要进行宣讲。


相关文章
Bug级别判定法则
Bug级别判定法则
1670 0
|
Java 数据库连接 数据库
|
3月前
|
人工智能 算法 测试技术
从工具到搭档:深度拆解 Claude Code 的五大核心机制与实战心法
用了一段时间 Claude Code 之后,我越来越觉得它和传统的 AI 编程助手不是一个物种。大多数 AI 编程工具本质上是"补全器"——你写半行代码,它帮你续写后半行。而 Claude Code 更像是一个能理解整个项目的"系统级协作者",它拥有超过 200K token 的上下文窗口,意味着它可以一次性"阅读"你项目中成百上千个文件,真正理解代码之间的依赖关系。 这篇文章不是官方文档的翻译,而是我在实际使用过程中对其核心架构和最佳实践的理解与总结。
4783 1
|
10月前
|
存储 监控 调度
阿里云对象存储OSS之间进行数据转移教程
讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移,包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作
|
人工智能 IDE 程序员
Qoder用户上手指南:安装、登录、快捷键、功能亮点(新用户免费领300credits,首购2美元/月)
这个容易让程序员上瘾的 Agentic Coding 平台有哪些上头的功能?对于小白开发者和资深开发者如何用好Qoder呢?
19275 6
Qoder用户上手指南:安装、登录、快捷键、功能亮点(新用户免费领300credits,首购2美元/月)
|
8月前
|
存储 人工智能 缓存
运维智能体(SRE Agent)技术分级能力要求
本标准规范了运维智能体在场景应用、协同能力、能力建设及底座构建方面的技术要求,适用于公共与私有环境下的服务与产品。依据AI技术发展,定义了从初始级到优秀级的三级能力框架,涵盖感知、控制、行动等核心能力,推动运维智能化升级。
运维智能体(SRE Agent)技术分级能力要求
|
11月前
|
应用服务中间件 Linux 网络安全
使用Nginx免费版与Keepalived实现高可用性High Availablity方案
本文介绍了如何使用Nginx免费版与Keepalived实现高可用性(HA)方案,涵盖环境搭建、Keepalived安装配置、版本升级及主从模式设置。通过虚拟机测试,结合CentOS与宝塔,详细说明VIP配置与服务启动流程,助你构建稳定可靠的Web高可用架构。
|
存储 人工智能 API
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。
14181 78
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1988 2
|
存储 Linux 持续交付
史上最全 Terraform 入门教程,助你无坑入门!
【10月更文挑战第26天】这是一个全面的 Terraform 入门教程,涵盖了 Terraform 的基本概念、安装步骤、基础配置、变量和输出变量的使用、模块的定义与使用,以及状态管理。通过实例讲解如何创建本地文件资源和 AWS S3 桶,帮助初学者快速上手并掌握 Terraform 的核心功能。
4302 8