《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性

简介: 《云上业务稳定性保障实践白皮书》——二. 理论概念——2.1 稳定性


一、引言


随着客户云上业务规模不断扩大,迭代速度不断加快,系统复杂度也随之不断提

升,如何保障云上业务稳定性这个话题也变的愈发重要。本书将从理论概念出发、围

绕故障管理体系和变更管控体系展开,并根据各行业客户稳定性实践经验,对云上业

务稳定性体系建设进行多角度的讲解。


创作团队名单


顾问组成员

王超(明稀) 陈阳(楷睿) 李斯达(木仔) 张医博(韩笠) 陈庆康(辰路)

周建平(嘉益) 徐元(英为) 王海忠(豫仁)


二、理论概念


2.1 稳定性


“稳定性是数学或工程上的用语,判别一系统在有界的输入是否也产生有界的输出。若是,称系统为稳定;若否,则称系统为不稳定”。这是维基百科上对稳定性的定义,所以当一个业务系统接收到输入后,可以产生符合预期的输出,那么认为业务系统是稳定的,否则业务系统是不稳定的。一个产品/系统其实可以分为一个个循环往复的周期单元,简单来看:


一个完整周期单元时间 = 无故障时间 + 故障恢复时间。


尽可能延长无故障时间(MTBF),缩短故障恢复时间(MTTR),提升业务整体可用性,也就是所谓的"稳定"。业务可用性也是可以通过Availability = MTBF / (MTBF + MTTR) 来度量。通常业界习惯用N个9来表征系统可用性,比如99.9%(3-9 availability),99.999%(5-9 availability)。


可用性概念在各个业务上的落地实践即为业务可用率。业务可用率是业务稳定性度量的重要指标之一,通过选取一个或者几个业务核心指标,定义该指标(集)的下跌程度和持续时长作为影响该业务可用率的定义。围绕业务场景的可用性指标定义、目标设定、系统监控能力建设,及通过目标关联,最终达成联动上下游团队确保业务视角可用性目标达成的结果。


案例定义及目标:

电商全站交易可用率目标99.995%

•可用性事件定义:因故障引发,全站交易创建、支付笔数与基线相比下跌超过20%,且持续10分钟及以上,则记为可用性事件。

•发生可用性事件后,对应时长计算为宕机时间(downtime),全年对应的可用率即可计算出来。

image.png

相关文章
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
7月前
|
人工智能 运维 Cloud Native
一起聊聊大规模 AI Agent 部署与运维实战
诚挚地邀请您参加将于 11 月 28 日(周五)下午,在北京阿里中心举办的 【企业 AI 原生应用架构升级】主题研讨会。
|
9天前
|
人工智能 安全 测试技术
别再让 Claude 乱改代码了!Claude Code 这 7 个权限配置让你的项目再也不翻车
还在为 Claude Code 的混乱操作头疼?本文总结 7 个核心权限配置,从上下文管理、提示技巧到环境配置全覆盖,让你的 AI 编程助手真正听话不翻车。
389 5
|
10月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
289 0
|
9月前
|
存储 人工智能 运维
从“看得见”到“能决策”:Operation Intelligence 重构企业智能运维新范式
从 Observability 到 Operation Intelligence,日志服务 SLS 与云监控 2.0 协力之下,为企业打造高效、稳定、智能运营的数字化中枢,让复杂系统变得可视、可管、可优。
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
891 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
缓存 NoSQL Java
京东电商下单黄金链路:防止订单重复提交与支付的深度解析
【10月更文挑战第21天】在电商领域,尤其是在像京东这样的大型电商平台中,防止订单重复提交与支付是一项至关重要的任务。
903 44
|
NoSQL 关系型数据库 MySQL
做电商业务开发这几年,我学到的系统稳定性建设方法
文章总结了电商业务开发中保障系统稳定性的关键方法,包括代码健壮性、安全变更、系统链路梳理、接口降级与限流、定期降级演练、预案准备、系统压测、日常巡检、中间件巡检、值班制度和告警机制,强调了稳定性建设是一个长期任务,需要持续迭代优化,并保持对生产系统的敬畏之心。
|
存储 JSON 关系型数据库
MySQL JSON 类型:功能与应用
MySQL JSON 类型:功能与应用
|
运维 监控 双11
起底:“问题终结者”GOC的真实战力
在阿里巴巴隐藏着很多神秘的部门,GOC就是其中之一,你在互联网甚至搜不到关于它的一丁点儿信息。但就是这么一个“名不见经传”的部门,却“指挥”着阿里巴巴旗下几乎所有业务的运行情况。
10243 0

热门文章

最新文章