《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

简介: 《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系

3.2故障分体系


故障分是阿里巴巴独特的故障衡量机制,通过算法赋予故障一个分值,解决了传

统故障考核中的只看个数不看故障严重程度(持续时长,影响范围等)的弊端,同时有效提升了故障的MTTR。


故障分的基本公式为:


image.png


其中Pscore根据故障的等级及综合影响范围来确定,Tratio根据故障的持续时长

来确定,Eratio根据故障引发的附加影响面(如重大舆情,重大资金损失)来确定。此外云上产品故障也会引入S系数,根据企业用户对故障影响的感受程度确定。


同时各个技术团队可在财年之初设定一个总体的故障分Budget,基于历史故障

分情况并结合新财年的目标共同确定一个故障分目标。并将各个团队的数据以报表的方式定期进行通晒。同时针对一些典型的故障,在更大范围内进行解读和分享,以达到警示和降低故障复发率的目的。

相关文章
Bug级别判定法则
Bug级别判定法则
1691 0
|
运维 监控 算法
稳定性保障6步走:高可用系统大促作战指南!
年年有大促,大家对于大促稳定性保障这个词都不陌生,业务场景尽管各不相同,“套路”往往殊路同归,全链路压测、容量评估、限流、紧急预案等,来来去去总少不了那么几板斧。跳出这些“套路”,回到问题的本质,我们为什么要按照这些策略来做?除了口口相传的历史经验,我们还能做些什么?又有什么理论依据?
稳定性保障6步走:高可用系统大促作战指南!
|
5月前
|
人工智能 机器人 应用服务中间件
2026年阿里云基于Moltbot(原Clawdbot)构建钉钉AI员工:轻量应用服务器部署指南
Moltbot(原Clawdbot)是一款开源本地优先AI代理与自动化平台,核心能力是整合多渠道通信与大语言模型,创建具备持久记忆、主动执行能力的定制化AI助理。2026年阿里云通过轻量应用服务器提供一键部署方案,支持将Moltbot与钉钉深度集成,构建7×24小时在线的“钉钉AI员工”,可自动完成邮件处理、日程管理、文档生成等办公任务,降低人工成本。本文严格依据阿里云官方流程,详细拆解从Moltbot部署到钉钉集成的全步骤,确保操作可落地、信息无篡改。
919 6
|
2月前
|
人工智能 测试技术
CLI为什么突然爆了?一文讲清 Skill、MCP、CLI 的真实关系
本文解析AI从“能聊天”到“能干活”的关键跃迁,聚焦CLI(命令行接口)、Skill(内嵌能力)与MCP(标准化连接协议)三大执行层技术。厘清三者本质差异与协同关系:Skill解决“懂什么”,MCP解决“怎么接”,CLI解决“怎么做”,揭示企业推动CLI落地的核心动因——让AI真正融入业务、自动执行任务。
|
Web App开发 搜索推荐 安全
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
1181 6
macOS Sonoma 14.7.6 (23H626) 正式版 ISO、IPSW、PKG 下载
|
12月前
|
数据采集 人工智能 运维
训练时间可缩短50%!阿里云推出自动驾驶模型加速框架
阿里云推出PAI-TurboX框架,专为自动驾驶领域模型训练与推理加速设计,可提升感知、规划控制及世界模型效率,缩短训练时间50%以上,并已广泛应用于多家车企。
905 0
训练时间可缩短50%!阿里云推出自动驾驶模型加速框架
|
人工智能 安全 Nacos
MSE 企业版:全面拥抱 AI,SLA 99.99%,零信任安全
微服务引擎注册配置中心铂金版正式发布,支持Nacos 3.0 MCP服务动态注册与调优,提供比专业版更高的稳定性与安全能力,SLA达99.99%,服务推送性能提升300%。针对关键业务,铂金版通过独享核心资源实现更高规格配额,满足大规模需求。此外,新增MCP动态注册、HTTP服务转换、实时更新调优等功能,并强化数据源管理与安全能力,助力企业应对复杂业务挑战。
|
存储 弹性计算 安全
Cloud Backup深度解析:从被动防御到主动保护
《Cloud Backup深度解析:从被动防御到主动保护》由阿里云高级技术专家张磊分享,探讨企业数据保护面临的挑战及应对策略。内容涵盖企业数据安全威胁、小概率事件的高风险性、传统备份系统的不足,以及通过四步主动防御策略(资源发现、风险检测、数据锁定、全局巡检)实现高效的数据保护。同时介绍了基于标签的自动策略关联、多种备份引擎、恶意文件检测、探测效率优化等关键技术,确保备份数据的安全性和完整性。此外,还展示了数据灾备中心和全方位主动数据保护机制,帮助企业在面对勒索病毒、内部攻击等威胁时,构建更强大的防护体系。
345 8
|
监控 前端开发 数据可视化
深入调查研究
【11月更文挑战第5天】
471 2

热门文章

最新文章