SRE方法论之减少琐事

简介: SRE中的E是Engineering。中文可以翻译为“工程工作”,SRE就是通过工程工作来减少琐事。

我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。

一、什么是琐事

琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。而且,琐事与服务呈线性关系的增长。琐事具有以下特点:

手动性:例如收到磁盘目录满告警,运维人员手动清理日志。

重复性:如果某件事是第一次做,甚至第二次做,都不算琐事。琐事就是不停反复做的工作,如果你正在解决一个新出现的问题或者寻求一种新的解决办法,不算琐事。清理磁盘目录不太可能是一次性的,因此我们需要反复去处理它。

可以被自动化:如果软件程序可以和运维人员一样能够很好地完成某个任务,或者通过某种设计变更来彻底消除运维人员手动、重复的处理某项工作。

战术性的:琐事是突然出现的、应对式的工作,而非策略驱动和主动安排的。比如处理日常告警,我们可能永远无法完全消除这种类型的工作,但我们必须继续努力减少它。

没有持久价值:如果在你完成某项任务之后,服务状态没有改变,这项任务就很可能是琐事。如果这项任务会给服务带来永久性的改进,它就不是琐事。

与服务同步线性增长:如果在工作中所涉及的任务与服务的大小、流量或用户数量呈线性增长关系,那这项任务可能属于琐事。

二、为什么要减少琐事

对运维团队来说,琐事不可避免。运维不可避免地需要处理部署、升级、重启、告警处理等工作,这其中又包含很多上面所说的琐事,如果不加以控制,琐事会变得越来越多,以至于迅速占据我们每个人100%的时间!每日疲于奔命忙于救火,就无法将更多的力量投入到扩大服务规模的工程工作上去,或者是进行下一代的服务的架构设计。
图片来源于网络

三、SRE怎么减少琐事

SRE中的E是Engineering。中文可以翻译为“工程工作”,SRE就是通过工程工作来减少琐事。
工程工作通常是有创新性和创造性的,着重通过设计来解决问题,解决方案越通用越好。例如,编写自动化脚本,创造工具或框架,增加可扩展性和可靠性的服务功能,或修改基础设施代码以使其更稳健。工程工作有助于使该团队或是整个SRE组织在维持同等人员配备的情况下接手更大或者更多的服务。

相关文章
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
3880 1
|
Prometheus 监控 前端开发
七步成诗 - 快速创建有效 SLO
七步成诗 - 快速创建有效 SLO
|
存储 JSON JavaScript
【2023-08-20】最新PDF.js PDF批注注释插件库:创建、保存和管理PDF注释批注(高亮、文本框、绘图、截屏、历史记录、橡皮檫)-pdf.js
探索基于pdf.js-dist开发的纯Javascript PDF批注插件库,支持保存、导出、导入和管理PDF文件中的批注。多个功能模块为您提供丰富的PDF注释体验。
912 0
【2023-08-20】最新PDF.js PDF批注注释插件库:创建、保存和管理PDF注释批注(高亮、文本框、绘图、截屏、历史记录、橡皮檫)-pdf.js
|
7月前
|
SQL 小程序 API
如何运用C#.NET技术快速开发一套掌上医院系统?
本方案基于C#.NET技术快速构建掌上医院系统,结合模块化开发理念与医院信息化需求。核心功能涵盖用户端的预约挂号、在线问诊、报告查询等,以及管理端的排班管理和数据统计。采用.NET Core Web API与uni-app实现前后端分离,支持跨平台小程序开发。数据库选用SQL Server 2012,并通过读写分离与索引优化提升性能。部署方案包括Windows Server与负载均衡设计,确保高可用性。同时针对API差异、数据库老化及高并发等问题制定应对措施,保障系统稳定运行。推荐使用Postman、Redgate等工具辅助开发,提升效率与质量。
288 0
|
12月前
|
人工智能 信息无障碍
阿里云携手天津医保局,荣获2024全国智慧医保大赛一等奖!
阿里云携手天津医保局,荣获2024全国智慧医保大赛一等奖!
327 14
|
10月前
|
监控 安全 Linux
龙蜥社区及阿里云CentOS迁移方案|飞天技术沙龙-CentOS 迁移替换专场
本次分享的主题是龙蜥社区及阿里云 CentOS 迁移方案|飞天技术沙龙- CentOS 迁移替换专场,由阿里云产品专家周絮分享。主要分为三个部分: 1.背景介绍 2.方案选型 3.迁移支持
233 0
|
12月前
|
Java 编译器 程序员
Java面试高频题:用最优解法算出2乘以8!
本文探讨了面试中一个看似简单的数学问题——如何高效计算2×8。从直接使用乘法、位运算优化、编译器优化、加法实现到大整数场景下的处理,全面解析了不同方法的原理和适用场景,帮助读者深入理解计算效率优化的重要性。
228 6
|
运维 监控
构建高效运维体系:从理论到实践
在当今快速发展的信息化时代,高效的运维体系是保障企业信息系统稳定运行的关键。本文旨在探讨如何构建一个高效、可靠的运维体系,通过分析当前运维面临的挑战,提出相应的解决策略,并结合实际案例,展示这些策略的实施效果。文章首先介绍了高效运维的重要性,接着分析了运维过程中常见的问题,然后详细阐述了构建高效运维体系的策略和步骤,最后通过一个实际案例来验证这些策略的有效性。
|
Web App开发 搜索推荐 安全