《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

3.2故障分体系


故障分是阿里巴巴独特的故障衡量机制,通过算法赋予故障一个分值,解决了传

统故障考核中的只看个数不看故障严重程度(持续时长,影响范围等)的弊端,同时有效提升了故障的MTTR。


故障分的基本公式为:


image.png


其中Pscore根据故障的等级及综合影响范围来确定,Tratio根据故障的持续时长

来确定,Eratio根据故障引发的附加影响面(如重大舆情,重大资金损失)来确定。此外云上产品故障也会引入S系数,根据企业用户对故障影响的感受程度确定。


同时各个技术团队可在财年之初设定一个总体的故障分Budget,基于历史故障

分情况并结合新财年的目标共同确定一个故障分目标。并将各个团队的数据以报表的方式定期进行通晒。同时针对一些典型的故障,在更大范围内进行解读和分享,以达到警示和降低故障复发率的目的。

相关文章
Bug级别判定法则
Bug级别判定法则
1598 0
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
4月前
|
人工智能 机器人 应用服务中间件
2026年阿里云基于Moltbot(原Clawdbot)构建钉钉AI员工:轻量应用服务器部署指南
Moltbot(原Clawdbot)是一款开源本地优先AI代理与自动化平台,核心能力是整合多渠道通信与大语言模型,创建具备持久记忆、主动执行能力的定制化AI助理。2026年阿里云通过轻量应用服务器提供一键部署方案,支持将Moltbot与钉钉深度集成,构建7×24小时在线的“钉钉AI员工”,可自动完成邮件处理、日程管理、文档生成等办公任务,降低人工成本。本文严格依据阿里云官方流程,详细拆解从Moltbot部署到钉钉集成的全步骤,确保操作可落地、信息无篡改。
813 6
|
1月前
|
人工智能 测试技术
CLI为什么突然爆了?一文讲清 Skill、MCP、CLI 的真实关系
本文解析AI从“能聊天”到“能干活”的关键跃迁,聚焦CLI(命令行接口)、Skill(内嵌能力)与MCP(标准化连接协议)三大执行层技术。厘清三者本质差异与协同关系:Skill解决“懂什么”,MCP解决“怎么接”,CLI解决“怎么做”,揭示企业推动CLI落地的核心动因——让AI真正融入业务、自动执行任务。
|
设计模式 程序员 PHP
PHP程序员的技术成长之路
技术成长是每个PHP程序员不断追求的目标,而这一过程并非只是关于学习新的语言特性或框架,更多的是关乎思维方式和解决问题的能力。本文将探讨PHP程序员在技术成长之路上所面临的挑战,并提出一些建议,帮助他们不断提升自己的技术水平。
157 5
|
Cloud Native Java API
聊聊从单体到微服务架构服务演化过程
本文介绍了从单体应用到微服务再到云原生架构的演进过程。单体应用虽易于搭建和部署,但难以局部更新;面向服务架构(SOA)通过模块化和服务总线提升了组件复用性和分布式部署能力;微服务则进一步实现了服务的独立开发与部署,提高了灵活性;云原生架构则利用容器化、微服务和自动化工具,实现了应用在动态环境中的弹性扩展与高效管理。这一演进体现了软件架构向着更灵活、更高效的方向发展。
|
安全 Shell Linux
Linux系统之su命令的基本使用
Linux系统之su命令的基本使用
729 4
Linux系统之su命令的基本使用
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
3423 1
数据治理之参考数据与主数据管理
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
470 0