稳定性「三十六计」- 配额管控

简介: 背景《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。这个原则在我以后会发布的系列文章《架构设计「三大纪律八项注意」》中也会介绍一些。今天先从另一个角度系统的看这个问题。

背景


《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。


这个原则在我以后会发布的系列文章《架构设计「三大纪律八项注意」》中也会介绍一些。今天先从另一个角度系统的看这个问题。

 

配额管控策略-逻辑管控


我所在的HULK调度系统团队因为从大的方面将调度系统分成资源和调度两个方面,所以衍生出来就有物理和逻辑两个层次。在运用方面可以用一个简单的例子来解释:秒杀。

在秒杀场景中,假设实际物品库存有10件。这是一个物理概念,被别人订走一个少一个。但是秒杀开始的时候,有100个请求过来,每个人都不知道下一时刻库存有多少。这时候实时感知物理上有多少库存来给用户反馈显然是不合适的。这时候就衍生出来逻辑的概念。


这个逻辑的库存可以用一个计数器来实现,或者是漏斗,不重要。关键是逻辑库存要卡住流程,不能让物理库存为负数。


在我们HULK调度系统中,涉及到硬件资源,一个策略是为应急场景留下一定配额。对于不同的来源的请求给予不同的配额以避免一个来源方未知问题导致所有的资源耗尽。


总结一下上面提到的策略:物理感知是必要的,但是不能代替逻辑管控。逻辑管控包括:不能让资源总量低于实际;必要时留有配额;针对不同来源需要不同的配比。

 

配额管控策略-批量管控


「核心流程都需要是点对点的。保障流程原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。」这是我们团队的一个重要的设计原则。


举个我们团队的具体应用:是人都是要死的,是机器都是要坏的。机器故障既然不可避免,那就需要进行自动化处理。HULK调度系统这边有专门的物理机宕机流程。这个流程在设计中做了下面两件事情:1是限量,2是限速。


限量:


按照物理机宕机率统计数据来看,一天理论上不可能有100台物理机同时宕机。如果1天中宕机数超过一定配额,则停止自动化宕机处理,并发出异常报警。


限速:


如果1秒中100台机器同时宕机,更可能发生的事情是网络抖动之类的其他现象。而非真宕机,所以此时也会停止自动化宕机处理,并发出异常报警。

 

总结


与用户一同工作,以像用户一样思考  --《程序员修炼之道》

相关文章
|
6天前
|
存储 机器学习/深度学习 运维
提升数据中心能效:现代运维策略与实践
【5月更文挑战第6天】 在数字化时代,数据中心作为信息处理的核心设施,其能源消耗和环境影响成为业界关注的焦点。本文将探讨如何通过现代运维策略和技术手段提升数据中心的能效,同时保证系统的可靠性和服务的连续性。文章将详细分析数据中心能耗的主要来源,介绍先进的能效优化措施,并通过案例分析展示这些措施的实际效果,为数据中心管理者提供实用的能效改进建议。
|
6天前
|
存储 Prometheus 监控
成本更低、更可控,云原生可观测新计费模式正式上线
成本更低、更可控,云原生可观测新计费模式正式上线
|
6天前
|
关系型数据库 Serverless 分布式数据库
针对PolarDB的Serverless能力从资源弹升速度、资源伸缩广度以及资源伸缩的稳定性三个维度的产品测评
针对PolarDB的Serverless能力从资源弹升速度、资源伸缩广度以及资源伸缩的稳定性三个维度的产品测评
207 0
|
11月前
|
运维 Serverless API
函数计算既可以做到免运维、成本可控
函数计算既可以做到免运维、成本可控
186 1
|
12月前
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.1 准入
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.1 准入
132 0
|
12月前
|
监控
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.3 观测
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.3 观测
107 0
|
12月前
|
监控 测试技术
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.2灰度
《云上业务稳定性保障实践白皮书》——四. 变更管控体系——4.2 变更管控动作——4.2.2灰度
159 0
|
12月前
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.3 稳定性巡检总结
|
12月前
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.1 什么是稳定性治理
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.1 什么是稳定性治理
|
12月前
|
容灾 测试技术 数据中心
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.1 云产品稳定性治理——6.1.2 稳定性治理的思想