《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

6.1.2 稳定性治理的思想


关于稳定性治理的方法,答案和途径都不尽相同。那什么是可遵循的稳定性治理的思想呢?我们可以从可用性计算公式(Availability Estimate)进行挖掘:

AvailabilityEstimate=MTBF/(MTBF+MTTR)

其中,MTBF:the1Mean1Time1Between1Failure(平均故障间隔时间),MTTR:the Mean Time To Recover(平均故障修复时间)

这里涉及两个变量:故障概率、故障时长。通过增大MTBF、减小MTTR,可以提高系统的高可用性。主要包含减少故障发生概率、减少故障恢复时间、制造故障发生概率(可控的)三个方法。为什么会需要人为制造故障发生概率?因为故障发生相应频次较低,没有办法很好地提前发现故障,所以需要制造故障。减少故障发生概率是通过一些稳定性原则进行系统设计及调优来改善的, 制造故障发生概率是通过一系列的容灾演练、全链路压测、混沌工程等检查系统的自愈能力及稳定性,并将发现的潜在风险进行治理。




________________________________________________________

9 ISO/IEC 25010:2011, Systems and software engineering -- Systems and software Quality Requirements and Evaluation (SQuaRE)

-- System and software quality models,[S]


image.png

图:故障恢复公式

我们可以推导及设计一些对应的稳定性原则,用于设计客户核心系统架构及优化其稳定性。

N+1原则:系统中的每个组件都应做到没有单点故障。

依赖识别简化原则: 尽可能单元化每个组件,减少各系统的依赖性。

回滚原则:确保系统可以向前兼容,在系统升级时应能有办法回滚版本。

隔离原则:应该提供控制具体功能是否可用的配置,在系统出现故障时能够快速下线功能。

异地多活原则:考虑在多地实施数据中心进行多活,至少在一个机房断电的情况下系统依然可用。

自我保护原则:遇到外部恶意输入时,有一定的防错能力,遇到大促时可以考虑少流血,牺牲一部分保护另外一部分。例如:限流,降级等。

水平扩展原则:系统架构做到能水平扩展,才能有效避免瓶颈问题。

相关文章
|
资源调度 算法 计算机视觉
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
1622 0
数字图像处理实验(六)|图像分割{阈值分割、直方图法、OTUS最大类间方差法(edge、im2dw、imfilter、imresize)、迭代阈值法、点检测}(附matlab实验代码和截图)
|
4月前
|
存储 安全 Java
2025 最新史上最全 Java 面试题独家整理带详细答案及解析
本文从Java基础、面向对象、多线程与并发等方面详细解析常见面试题及答案,并结合实际应用帮助理解。内容涵盖基本数据类型、自动装箱拆箱、String类区别,面向对象三大特性(封装、继承、多态),线程创建与安全问题解决方法,以及集合框架如ArrayList与LinkedList的对比和HashMap工作原理。适合准备面试或深入学习Java的开发者参考。附代码获取链接:[点此下载](https://pan.quark.cn/s/14fcf913bae6)。
1360 48
|
Kubernetes 应用服务中间件 API
【Ingress 秘籍】集群进出流量的总管:揭秘 Kubernetes 中 Ingress 的终极奥秘!
【8月更文挑战第25天】Ingress是Kubernetes中用于管理HTTP与HTTPS流量进入集群的核心功能。作为集群内外通信的桥梁,Ingress通过定义规则将外部请求导向内部服务。本文详细介绍了Ingress的基本概念、配置方法及其实现方式。通过使用不同的Ingress控制器(如Nginx、Traefik等),用户可以根据需要选择最适合的方案。文中还提供了示例代码展示如何创建服务、部署应用及配置Ingress规则。
383 6
|
机器学习/深度学习 人工智能 城市大脑
阿里云 ET
阿里云 ET自制脑图, 由阿里云科学家团队研发的超级人工智能ET,是杭州城市大脑背后的人工智能中枢,也是阿里巴巴集团董事局主席马云眼中的下一代 CEO。阿里云 ET 拥有全球领先的人工智能技术。
1000 0
阿里云 ET
|
12月前
|
存储 边缘计算 安全
5G 边缘计算的安全保障:构建可信的边缘智能
5G 边缘计算的安全保障:构建可信的边缘智能
360 0
|
消息中间件 canal 缓存
彻底搞懂Redis和Mysql如何保证数据一致性
彻底搞懂Redis和Mysql如何保证数据一致性
彻底搞懂Redis和Mysql如何保证数据一致性
|
机器学习/深度学习 人工智能 算法
AI与创意写作:机器如何学习讲故事
【7月更文挑战第8天】在数字时代的浪潮中,人工智能已经从实验室走向了文学创作的领域。本文将探讨AI在创意写作中的应用,揭示它如何通过算法模仿人类的思维模式,生成引人入胜的故事。我们将一同穿梭于代码与文字之间,见证一个由数据驱动的叙事新纪元的诞生。
|
存储 移动开发 C#
一篇文章讲明白MIME详解
一篇文章讲明白MIME详解
586 0
|
新零售 存储 人工智能
阿里云携手河南伙伴,服务本地客户
2023年2月7日,阿里云河南合作伙伴新春团拜会·郑州站顺利召开,超过150位合作伙伴到场参会。