《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

简介: 《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想

6.1.2 稳定性治理的思想


关于稳定性治理的方法,答案和途径都不尽相同。那什么是可遵循的稳定性治理的思想呢?我们可以从可用性计算公式(Availability Estimate)进行挖掘:

AvailabilityEstimate=MTBF/(MTBF+MTTR)

其中,MTBF:the1Mean1Time1Between1Failure(平均故障间隔时间),MTTR:the Mean Time To Recover(平均故障修复时间)

这里涉及两个变量:故障概率、故障时长。通过增大MTBF、减小MTTR,可以提高系统的高可用性。主要包含减少故障发生概率、减少故障恢复时间、制造故障发生概率(可控的)三个方法。为什么会需要人为制造故障发生概率?因为故障发生相应频次较低,没有办法很好地提前发现故障,所以需要制造故障。减少故障发生概率是通过一些稳定性原则进行系统设计及调优来改善的, 制造故障发生概率是通过一系列的容灾演练、全链路压测、混沌工程等检查系统的自愈能力及稳定性,并将发现的潜在风险进行治理。




________________________________________________________

9 ISO/IEC 25010:2011, Systems and software engineering -- Systems and software Quality Requirements and Evaluation (SQuaRE)

-- System and software quality models,[S]


image.png

图:故障恢复公式

我们可以推导及设计一些对应的稳定性原则,用于设计客户核心系统架构及优化其稳定性。

N+1原则:系统中的每个组件都应做到没有单点故障。

依赖识别简化原则: 尽可能单元化每个组件,减少各系统的依赖性。

回滚原则:确保系统可以向前兼容,在系统升级时应能有办法回滚版本。

隔离原则:应该提供控制具体功能是否可用的配置,在系统出现故障时能够快速下线功能。

异地多活原则:考虑在多地实施数据中心进行多活,至少在一个机房断电的情况下系统依然可用。

自我保护原则:遇到外部恶意输入时,有一定的防错能力,遇到大促时可以考虑少流血,牺牲一部分保护另外一部分。例如:限流,降级等。

水平扩展原则:系统架构做到能水平扩展,才能有效避免瓶颈问题。

相关文章
|
2月前
|
存储 安全 Cloud Native
从数据风险出发的云上数据安全最佳实践
本文介绍了从数据风险出发的云上数据安全最佳实践,涵盖数据泄露现状及原因分析,以及基于云的安全机制。文章详细探讨了以云为基础实现数据全链路可视可控的方法,包括资产可见可控、数据安全中心、治理闭环和自动化智能化的数据安全治理能力。通过云原生方案,企业可以更高效地识别、预警和处置数据风险,确保数据安全。文中还提到多项免费工具和服务,帮助企业降低数据泄露风险并减少安全投入。
109 60
|
2月前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
328 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.3 稳定性治理的思考与拓展
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.3 稳定性治理的思考与拓展
119 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.1 什么是稳定性治理
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.1 什么是稳定性治理
122 0
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
119 0
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.3 名词解释
120 0
|
容灾 安全 容器
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.1 核心系统上云架构--稳定性治理实践
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.1 核心系统上云架构--稳定性治理实践
109 0
|
机器学习/深度学习 运维 监控
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.2 智能风险管控工具--Aspara ServiceStack-CloudDoc
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.2 智能风险管控工具--Aspara ServiceStack-CloudDoc
158 0
|
监控
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性
363 0