《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性

简介: 《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性


一、引言


随着客户云上业务规模不断扩大,迭代速度不断加快,系统复杂度也随之不断提

升,如何保障云上业务稳定性这个话题也变的愈发重要。本书将从理论概念出发、围

绕故障管理体系和变更管控体系展开,并根据各行业客户稳定性实践经验,对云上业

务稳定性体系建设进行多角度的讲解。


创作团队名单


顾问组成员

王超(明稀) 陈阳(楷睿) 李斯达(木仔) 张医博(韩笠) 陈庆康(辰路)

周建平(嘉益) 徐元(英为) 王海忠(豫仁)


二、理论概念


2.1 稳定性


“稳定性是数学或工程上的用语,判别一系统在有界的输入是否也产生有界的输出。若是,称系统为稳定;若否,则称系统为不稳定”。这是维基百科上对稳定性的定义,所以当一个业务系统接收到输入后,可以产生符合预期的输出,那么认为业务系统是稳定的,否则业务系统是不稳定的。一个产品/系统其实可以分为一个个循环往复的周期单元,简单来看:


一个完整周期单元时间 = 无故障时间 + 故障恢复时间。


尽可能延长无故障时间(MTBF),缩短故障恢复时间(MTTR),提升业务整体可用性,也就是所谓的"稳定"。业务可用性也是可以通过Availability = MTBF / (MTBF + MTTR) 来度量。通常业界习惯用N个9来表征系统可用性,比如99.9%(3-9 availability),99.999%(5-9 availability)。


可用性概念在各个业务上的落地实践即为业务可用率。业务可用率是业务稳定性度量的重要指标之一,通过选取一个或者几个业务核心指标,定义该指标(集)的下跌程度和持续时长作为影响该业务可用率的定义。围绕业务场景的可用性指标定义、目标设定、系统监控能力建设,及通过目标关联,最终达成联动上下游团队确保业务视角可用性目标达成的结果。


案例定义及目标:

电商全站交易可用率目标99.995%

•可用性事件定义:因故障引发,全站交易创建、支付笔数与基线相比下跌超过20%,且持续10分钟及以上,则记为可用性事件。

•发生可用性事件后,对应时长计算为宕机时间(downtime),全年对应的可用率即可计算出来。

image.png

相关文章
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
5月前
|
存储 人工智能 运维
从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式
从 Observability 到 Operation Intelligence,日志服务 SLS 与云监控 2.0 协力之下,为企业打造高效、稳定、智能运营的数字化中枢,让复杂系统变得可视、可管、可优。
|
12月前
|
监控 容灾 Java
系统稳定性建设三件事
本文分享了作者学习稳定性工作、构建思路、落实方案,面对问题不断反思再推进的经验总结。
系统稳定性建设三件事
|
容灾 测试技术 数据库
怎么保证后端服务稳定性,怎么做容灾
【10月更文挑战第28天】保证后端服务稳定性及做好容灾措施是一个系统工程,需要从多个方面进行考虑和实施
|
11月前
|
机器学习/深度学习 人工智能 运维
《人工智能赋能DataWorks:开启自动化运维新篇章》
在数字化转型中,数据成为企业核心资产,DataWorks作为数据管理工具承担着集成、开发、调度和运维等任务。随着数据量增长和业务复杂化,传统人工运维方式效率低下且易出错。人工智能(AI)技术的引入为DataWorks自动化运维带来新曙光,通过机器学习和深度学习算法实现故障预测、智能诊断与修复及资源优化调度,大幅降低故障率并提高效率。某大型电商企业的应用案例显示,AI使任务失败率降低70%,故障处理时间缩短80%以上,计算资源利用率提升30%。未来,AI将与物联网、区块链等技术融合,进一步推动DataWorks运维智能化发展。
235 5
|
前端开发 搜索推荐 UED
HTML基础-文本格式化标签:美化网页内容
【6月更文挑战第1天】本文介绍了HTML的文本格式化标签,包括`<b>`、`<strong>`、`<i>`、`<em>`、`<u>`、`<s>`、`<mark>`、`<small>`、`<sub>`和`<sup>`等,强调了语义化使用和避免常见错误的重要性。示例代码展示了这些标签的用法,帮助提升网页内容的可读性和吸引力。
615 3
|
运维 监控 容灾
微服务稳定性保障6个维度
【5月更文挑战第27天】微服务改造面临的最大挑战是确保拆分后的系统稳定性。为此,需要一套全面的稳定性保障机制,涵盖事前预防、事中快速定位和事后快速止损。
|
Arthas Java 测试技术
57-微服务技术栈(高级):在线检测工具Arthas(基础指令)
开发者对于生产问题故障的排查、定位,随着微服务的喷发,也不再像是以前那边依赖纯日志、gc日志进行问题排查与定位了,本节开始介绍一个生产环境使用的排错工具Arthas,帮助大家更高效、便捷地实现生产问题排错。
578 0
|
消息中间件 缓存 监控
四个步骤,教你落地稳定性保障工作
本文将稳定性保障工作归纳为 梳理异常情况-&gt;配置监控告警-&gt;评估影响面-&gt;预定解决方案 四个步骤。从四个步骤详细介绍稳定性保障工作的落地方法。
50354 1
四个步骤,教你落地稳定性保障工作
|
算法 BI
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.2故障分体系
651 0