《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

3.2故障分体系


故障分是阿里巴巴独特的故障衡量机制,通过算法赋予故障一个分值,解决了传

统故障考核中的只看个数不看故障严重程度(持续时长,影响范围等)的弊端,同时有效提升了故障的MTTR。


故障分的基本公式为:


image.png


其中Pscore根据故障的等级及综合影响范围来确定,Tratio根据故障的持续时长

来确定,Eratio根据故障引发的附加影响面(如重大舆情,重大资金损失)来确定。此外云上产品故障也会引入S系数,根据企业用户对故障影响的感受程度确定。


同时各个技术团队可在财年之初设定一个总体的故障分Budget,基于历史故障

分情况并结合新财年的目标共同确定一个故障分目标。并将各个团队的数据以报表的方式定期进行通晒。同时针对一些典型的故障,在更大范围内进行解读和分享,以达到警示和降低故障复发率的目的。

相关文章
|
弹性计算 负载均衡 关系型数据库
如何提高业务系统的稳定性
【6月更文挑战第21天】如何提高业务系统的稳定性
|
SQL 大数据
每天一道大厂SQL题【Day03】订单量统计
每天一道大厂SQL题【Day03】订单量统计
238 0
Bug级别判定法则
Bug级别判定法则
1312 0
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
1天前
|
人工智能 安全 机器人
OpenClaw 最新保姆级飞书对接指南教程 搭建属于你的 AI 助手
OpenClaw 是一款开源本地AI助手,支持飞书、Telegram等多平台接入,可执行系统命令、浏览网页、管理文件及编写代码。本教程详解Linux下一键部署+飞书机器人对接全流程,强调数据自主可控与隐私安全。(239字)
388 1
|
缓存 负载均衡 监控
【微服务】一文读懂网关概念+Nginx正反向代理+负载均衡+Spring Cloud Gateway(多栗子)
不知道什么是网关?正向代理?反向代理?负载均衡?负载均衡策略?Nginx和Gateway的区别?假如这些你都不知道,没关系,本文举了大量通俗易懂的例子来阐述了这些概念,保证小白也能看懂,并且最后还提到了gateway的一些配置。
11045 2
【微服务】一文读懂网关概念+Nginx正反向代理+负载均衡+Spring Cloud Gateway(多栗子)
|
9月前
|
Web App开发 搜索推荐 安全
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
806 6
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
|
12月前
|
运维 前端开发 安全
亚信科技研发智能化实践之路
亚信科技研发智能化实践之路
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
2349 0