稳定性「三十六计」- 配额管控

简介: 背景《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。这个原则在我以后会发布的系列文章《架构设计「三大纪律八项注意」》中也会介绍一些。今天先从另一个角度系统的看这个问题。

背景


《SRE Google运维解密》里提到SRE自动化系统的一个bug导致几乎所有的数据中心机器被成功下线并进行硬盘擦除。当然这本书出版之后又业界也进行了很多的演进。在我们团队现在很难发生这样的事情。因为团队内人人要遵循的一个设计原则是:原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。


这个原则在我以后会发布的系列文章《架构设计「三大纪律八项注意」》中也会介绍一些。今天先从另一个角度系统的看这个问题。

 

配额管控策略-逻辑管控


我所在的HULK调度系统团队因为从大的方面将调度系统分成资源和调度两个方面,所以衍生出来就有物理和逻辑两个层次。在运用方面可以用一个简单的例子来解释:秒杀。

在秒杀场景中,假设实际物品库存有10件。这是一个物理概念,被别人订走一个少一个。但是秒杀开始的时候,有100个请求过来,每个人都不知道下一时刻库存有多少。这时候实时感知物理上有多少库存来给用户反馈显然是不合适的。这时候就衍生出来逻辑的概念。


这个逻辑的库存可以用一个计数器来实现,或者是漏斗,不重要。关键是逻辑库存要卡住流程,不能让物理库存为负数。


在我们HULK调度系统中,涉及到硬件资源,一个策略是为应急场景留下一定配额。对于不同的来源的请求给予不同的配额以避免一个来源方未知问题导致所有的资源耗尽。


总结一下上面提到的策略:物理感知是必要的,但是不能代替逻辑管控。逻辑管控包括:不能让资源总量低于实际;必要时留有配额;针对不同来源需要不同的配比。

 

配额管控策略-批量管控


「核心流程都需要是点对点的。保障流程原则上禁止批量操作。如需批量,需要有审核流程。批量设置上限。」这是我们团队的一个重要的设计原则。


举个我们团队的具体应用:是人都是要死的,是机器都是要坏的。机器故障既然不可避免,那就需要进行自动化处理。HULK调度系统这边有专门的物理机宕机流程。这个流程在设计中做了下面两件事情:1是限量,2是限速。


限量:


按照物理机宕机率统计数据来看,一天理论上不可能有100台物理机同时宕机。如果1天中宕机数超过一定配额,则停止自动化宕机处理,并发出异常报警。


限速:


如果1秒中100台机器同时宕机,更可能发生的事情是网络抖动之类的其他现象。而非真宕机,所以此时也会停止自动化宕机处理,并发出异常报警。

 

总结


与用户一同工作,以像用户一样思考  --《程序员修炼之道》

相关文章
|
1天前
|
人工智能 运维 安全
|
4天前
|
SpringCloudAlibaba 负载均衡 Dubbo
微服务架构下Feign和Dubbo的性能大比拼,到底鹿死谁手?
本文对比分析了SpringCloudAlibaba框架下Feign与Dubbo的服务调用性能及差异。Feign基于HTTP协议,使用简单,适合轻量级微服务架构;Dubbo采用RPC通信,性能更优,支持丰富的服务治理功能。通过实际测试,Dubbo在调用性能、负载均衡和服务发现方面表现更出色。两者各有适用场景,可根据项目需求灵活选择。
374 124
微服务架构下Feign和Dubbo的性能大比拼,到底鹿死谁手?
|
6天前
|
人工智能 JavaScript 测试技术
Qwen3-Coder入门教程|10分钟搞定安装配置
Qwen3-Coder 挑战赛简介:无论你是编程小白还是办公达人,都能通过本教程快速上手 Qwen-Code CLI,利用 AI 轻松实现代码编写、文档处理等任务。内容涵盖 API 配置、CLI 安装及多种实用案例,助你提升效率,体验智能编码的乐趣。
601 107
|
3天前
|
Java 数据库 数据安全/隐私保护
Spring 微服务和多租户:处理多个客户端
本文介绍了如何在 Spring Boot 微服务架构中实现多租户。多租户允许单个应用实例为多个客户提供独立服务,尤其适用于 SaaS 应用。文章探讨了多租户的类型、优势与挑战,并详细说明了如何通过 Spring Boot 的灵活配置实现租户隔离、动态租户管理及数据源路由,同时确保数据安全与系统可扩展性。结合微服务的优势,开发者可以构建高效、可维护的多租户系统。
197 127
|
3天前
|
Web App开发 前端开发 API
在折叠屏应用中,如何处理不同屏幕尺寸和设备类型的样式兼容性?
在折叠屏应用中,如何处理不同屏幕尺寸和设备类型的样式兼容性?
224 124
|
3天前
|
人工智能 数据可视化 测试技术
Coze平台指南(3):核心功能-创建智能体与设计角色
Coze 智能体是由大语言模型驱动,通过提示词设定角色,并借助知识库、插件和工作流扩展能力,以执行特定任务的AI助手。对测试工程师而言,精心设计的智能体可显著提升测试效率与质量,关键是要准确理解测试需求,并将其转化为智能体的角色设定和功能配置。建议进一步学习知识库与工作流,以深化应用。
|
7天前
|
JSON fastjson Java
FastJson 完全学习指南(初学者从零入门)
摘要:本文是FastJson的入门学习指南,主要内容包括: JSON基础:介绍JSON格式特点、键值对规则、数组和对象格式,以及嵌套结构的访问方式。FastJson是阿里巴巴开源的高性能JSON解析库,具有速度快、功能全、使用简单等优势,并介绍如何引入依赖,如何替换Springboot默认的JackJson。 核心API: 序列化:将Java对象转换为JSON字符串,演示对象、List和Map的序列化方法; 反序列化:将JSON字符串转回Java对象,展示基本对象转换方法;

热门文章

最新文章