SRE方法论之减少琐事

简介: SRE中的E是Engineering。中文可以翻译为“工程工作”,SRE就是通过工程工作来减少琐事。

我们先回顾一下SRE的定义:SRE就是用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务。所以,SRE要把更多的时间花费在长期项目研发上而非日常运维中的琐事。

一、什么是琐事

琐事就是运维服务中手动性的,重复性的,可以被自动化的,战术性的,没有持久价值的工作。而且,琐事与服务呈线性关系的增长。琐事具有以下特点:

手动性:例如收到磁盘目录满告警,运维人员手动清理日志。

重复性:如果某件事是第一次做,甚至第二次做,都不算琐事。琐事就是不停反复做的工作,如果你正在解决一个新出现的问题或者寻求一种新的解决办法,不算琐事。清理磁盘目录不太可能是一次性的,因此我们需要反复去处理它。

可以被自动化:如果软件程序可以和运维人员一样能够很好地完成某个任务,或者通过某种设计变更来彻底消除运维人员手动、重复的处理某项工作。

战术性的:琐事是突然出现的、应对式的工作,而非策略驱动和主动安排的。比如处理日常告警,我们可能永远无法完全消除这种类型的工作,但我们必须继续努力减少它。

没有持久价值:如果在你完成某项任务之后,服务状态没有改变,这项任务就很可能是琐事。如果这项任务会给服务带来永久性的改进,它就不是琐事。

与服务同步线性增长:如果在工作中所涉及的任务与服务的大小、流量或用户数量呈线性增长关系,那这项任务可能属于琐事。

二、为什么要减少琐事

对运维团队来说,琐事不可避免。运维不可避免地需要处理部署、升级、重启、告警处理等工作,这其中又包含很多上面所说的琐事,如果不加以控制,琐事会变得越来越多,以至于迅速占据我们每个人100%的时间!每日疲于奔命忙于救火,就无法将更多的力量投入到扩大服务规模的工程工作上去,或者是进行下一代的服务的架构设计。
图片来源于网络

三、SRE怎么减少琐事

SRE中的E是Engineering。中文可以翻译为“工程工作”,SRE就是通过工程工作来减少琐事。
工程工作通常是有创新性和创造性的,着重通过设计来解决问题,解决方案越通用越好。例如,编写自动化脚本,创造工具或框架,增加可扩展性和可靠性的服务功能,或修改基础设施代码以使其更稳健。工程工作有助于使该团队或是整个SRE组织在维持同等人员配备的情况下接手更大或者更多的服务。

相关文章
|
4月前
软件交付问题之要在需求评审中高效决策,如何解决
软件交付问题之要在需求评审中高效决策,如何解决
|
6月前
|
设计模式 供应链 安全
如何在短频快的节奏中做好技术?业务开发必会的架构思维
本文提供一种业务架构设计模式:从业务&技术两个角度提炼出一个基础思维框架,供业务线开发同学参考。
如何在短频快的节奏中做好技术?业务开发必会的架构思维
|
运维 监控 Cloud Native
运维自动化:提高效率的秘诀
运维自动化:提高效率的秘诀
179 0
|
存储 运维 架构师
经验教训:微服务设计时的五条宝贵经验
在著名软件著作《人月神话》中提到,软件世界没有“银弹”,这句话当然适用于架构领域,随着从单体架构过渡到微服务架构,因为将原有系统打散,给系统增加了许多不稳定因素。
101 0
|
6月前
|
SQL 缓存 开发工具
CodeReview对于一个企业的重要性
odeReview 是开发过程不可或缺的重要一环,如果将代码发布比作一个工厂的流水线,那么 CodeReview 就是流水线接近于终点的质检员,他要担负着对产品质量的保障工作,将“缺陷”从众多的“产品”中挑出,反向推动“生产方”改进生产质量。
80 1
|
程序员 Go 项目管理
恼人的KPI,技术管理者应该如何应对?
恼人的KPI,技术管理者应该如何应对?
OKR工作法——宏观总结
一个公司、一个团队想要走的快,想要走的远势必要有一个管理思想的指导,在公司一年多时间里随着公司的成长,个人的成长渐渐意识到管理方面还可以做的更好,于是乎跟随我司推行OKR工作法的浪潮,我也希望在这个过程中自己能够是那个第一个吃螃蟹的团队领导。
|
设计模式 安全 测试技术
如何快速理解复杂业务,系统思考问题?
对于复杂问题的思考其实是有层次的,从最表面的事件,到事件背后的规律,再到这个问题的结构模式,再到价值观,层层递进。在画完自己的业务系统因果回路图之后,再结合这个心智模型,思考自己的思考在哪个层次,是否可以有机会再下钻到更深的层次。
1265 2
如何快速理解复杂业务,系统思考问题?
在一个执行力极差的团队工作是一种怎样的体验?
一个执行力极差的团队能把一个公司活活的拖死,在这种团队中工作是一种怎么的体验呢?相信很多小伙伴会对这种团队的工作氛围感兴趣。正好冰河在假期与一位经历过这种团队的朋友聊天,聊到了这个话题,今天就给小伙伴们总结下在一个执行力差的团队工作是一种怎样的体验!
290 0
|
程序员
关于招聘:如何短时间全面评估一个程序员的能力
云栖社区有很多类似的讨论,有很多评估方式,之前好像在一些文章里也表达过自己的看法,但是在招聘时,时间很有限,最多也就一两小时,如何在这么短时间内评估一个人的技术能力呢?是个有意思的问题。我也招过一些技术人员,我觉的有两点很重要,也很简单。
3490 0
下一篇
无影云桌面