《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

6.1.2 稳定性治理的思想


关于稳定性治理的方法,答案和途径都不尽相同。那什么是可遵循的稳定性治理的思想呢?我们可以从可用性计算公式(Availability Estimate)进行挖掘:

AvailabilityEstimate=MTBF/(MTBF+MTTR)

其中,MTBF:the1Mean1Time1Between1Failure(平均故障间隔时间),MTTR:the Mean Time To Recover(平均故障修复时间)

这里涉及两个变量:故障概率、故障时长。通过增大MTBF、减小MTTR,可以提高系统的高可用性。主要包含减少故障发生概率、减少故障恢复时间、制造故障发生概率(可控的)三个方法。为什么会需要人为制造故障发生概率?因为故障发生相应频次较低,没有办法很好地提前发现故障,所以需要制造故障。减少故障发生概率是通过一些稳定性原则进行系统设计及调优来改善的, 制造故障发生概率是通过一系列的容灾演练、全链路压测、混沌工程等检查系统的自愈能力及稳定性,并将发现的潜在风险进行治理。




________________________________________________________

9 ISO/IEC 25010:2011, Systems and software engineering -- Systems and software Quality Requirements and Evaluation (SQuaRE)

-- System and software quality models,[S]


image.png

图:故障恢复公式

我们可以推导及设计一些对应的稳定性原则,用于设计客户核心系统架构及优化其稳定性。

N+1原则:系统中的每个组件都应做到没有单点故障。

依赖识别简化原则: 尽可能单元化每个组件,减少各系统的依赖性。

回滚原则:确保系统可以向前兼容,在系统升级时应能有办法回滚版本。

隔离原则:应该提供控制具体功能是否可用的配置,在系统出现故障时能够快速下线功能。

异地多活原则:考虑在多地实施数据中心进行多活,至少在一个机房断电的情况下系统依然可用。

自我保护原则:遇到外部恶意输入时,有一定的防错能力,遇到大促时可以考虑少流血,牺牲一部分保护另外一部分。例如:限流,降级等。

水平扩展原则:系统架构做到能水平扩展,才能有效避免瓶颈问题。

相关文章
icp网站备案查询【域名备案批量扫描工具】
昨晚去姨妈家的时候,姐的同事说姨妈也在做域名业务。正因为批量挖掘备案域名的问题哭丧着脸。
icp网站备案查询【域名备案批量扫描工具】
|
Prometheus 监控 前端开发
prometheus|云原生|grafana-9.4.3版本的主题更改
prometheus|云原生|grafana-9.4.3版本的主题更改
1962 0
|
存储 数据采集 监控
SkyWalking全景解析:从原理到实现的分布式追踪之旅
SkyWalking全景解析:从原理到实现的分布式追踪之旅
2808 1
|
2月前
|
人工智能 安全 Linux
小龙虾AI🦞 OpenClaw理性使用指南(阿里云/本地部署+免费Coding Plan API成本控制+安全防护+避坑手册)
“睡一觉赚大钱”“一人公司坐拥10个AI员工”“500元上门安装”——2026年开春,OpenClaw(曾用名Clawdbot)被流量裹挟成“暴富神话”。社交平台上,代安装服务报价从几百元飙升至数千元,大厂甚至下场举办“公益装机”活动;但另一面,真实用户面对每月1.5万甚至2.6万的API账单崩溃发问:“为什么不直接雇实习生?”
552 10
|
2月前
|
人工智能 自然语言处理 API
9.9元定制专属AI员工:阿里云OpenClaw快速部署全攻略!
在AI从“能说”迈向“能做”的关键节点,OpenClaw(原Clawdbot)以自然语言驱动任务执行,支持邮件处理、代码生成、跨平台协作等真实办公场景。仅需9.9元起,通过阿里云轻量服务器三步部署,15分钟即可拥有7×24小时在线的专属AI员工。
512 5
|
11月前
|
存储 安全 Java
2025 最新史上最全 Java 面试题独家整理带详细答案及解析
本文从Java基础、面向对象、多线程与并发等方面详细解析常见面试题及答案,并结合实际应用帮助理解。内容涵盖基本数据类型、自动装箱拆箱、String类区别,面向对象三大特性(封装、继承、多态),线程创建与安全问题解决方法,以及集合框架如ArrayList与LinkedList的对比和HashMap工作原理。适合准备面试或深入学习Java的开发者参考。附代码获取链接:[点此下载](https://pan.quark.cn/s/14fcf913bae6)。
5779 50
|
SQL 存储 安全
第4章 数据库安全性——4.2 数据库安全性控制
第4章 数据库安全性——4.2 数据库安全性控制
|
存储 边缘计算 安全
5G 边缘计算的安全保障:构建可信的边缘智能
5G 边缘计算的安全保障:构建可信的边缘智能
627 1
|
机器学习/深度学习 人工智能 自然语言处理
AIGC最近很火,给大家推荐一个已经有1000位开发者使用的中文aigc开源模型,包括ai画图、ai聊天
作为2022年以来AI圈最大的趋势,AIGC意味着,AI进军到了此前被视为“人类独占”的领域,如艺术表达、科学发现。
2416 0
AIGC最近很火,给大家推荐一个已经有1000位开发者使用的中文aigc开源模型,包括ai画图、ai聊天