如何做好一名稳定性SRE--业务团队系统稳定性的思与行

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
性能测试 PTS,5000VUM额度
简介: 稳定性目前不再局限于大促时的保障和平时的稳定性轮值,越来越体系化,本文基于作者在业务团队工作过程中的沉淀,以及在盒马2年SRE的实战经验,从稳定性心态、监控体系、故障应急体系、资源体系、大促保障机制、日常保障机制等几个层面,就如何做好SRE的工作进行了分享。

image.png

前言

2013年,当我第一次接触稳定性的时候,我是有些懵的,当时完全不知道稳定性是什么,也不清楚要做什么。在接下来的8年里,我先后在菜鸟、天猫、盒马从事中间件、业务系统、架构等方面的工作,期间一直穿插着负责稳定性和大促的保障工作。我的心态,大致经历过以下几个阶段:

  • low:完全不懂,觉得稳定性就是做别人安排好的一些表格和梳理,不知道自己该做啥,稳定性好low;
  • 烦:各种重复的会议,做好了是应该的,做不好就是责任,很烦很焦虑;
  • 知道该做什么,但是累:各种报警和风险,每天需要担心,想要不管又过不了自己心里那关;大促时候天天熬夜,各种压测,最终自己累得够呛;
  • 发现结合点:发现在采用系统化思维之后,稳定性与系统自身的结合变得紧密,稳定性成为一种基线,找到了稳定性中的关键点和重点。
  • 主动驱动:发现线上业务和线下业务的稳定性差别,理解并主动调整在不同业务团队采取的稳定性策略,探究在稳定性中的自动化、工具化,系统化建立稳定性机制;
  • 形成体系:形成稳定性体系化思考,明确稳定性每一个点在业务团队大图中的位置,探究系统弹性建设;
    近两年来,稳定性不再仅仅局限于之前的大促保障和平时的稳定性轮值,越来越体系化,在保障体系、监控体系、资源体系、质量保障、变更管控等多个方面,越来越系统。阿里的各个事业部,也纷纷成立专职的SRE安全生产团队。然而仍有很多人和业务团队,对于稳定性的理解和认知未形成一个体系化的机制,下面就结合我在业务团队系统稳定性上的认识,以及最近2年在盒马的一些思考,做一个分享。

什么是SRE

SRE(Site Reliability Engineering,站点可靠性/稳定性工程师),与普通的开发工程师(Dev)不同,也与传统的运维工程师(Ops)不同,SRE更接近是两者的结合,也就是2008年末提出的一个概念:DevOps,这个概念最近也越来越流行起来。SRE模型是Google对Dev+Ops模型的一种实践和拓展(可以参考《Google运维解密》一书),SRE这个概念我比较喜欢,因为这个词不简单是两个概念的叠加,而是一种对系统稳定性、高可用、团队持续迭代和持续建设的体系化解决方案;
那么要如何做好一个SRE呢,这是本文要探讨的话题。

1,心态&态度

1.1,谁适合做稳定性?

就像前言里我做稳定性前期的心态一样,稳定性最初上手,是提心吊胆、不得其门而入的,所以想要做好稳定性,心态最重要,业务团队想要找到合适做稳定性的人,态度也很重要。对于业务团队,要如何挑选和培养团队中最合适做稳定性的人呢?

  • 必须选择负责任的人,负责任是第一要素,主动承担,对报警、工单、线上问题、风险主动响应,不怕吃苦;一个不负责任的人,遇到问题与我无关的人,边界感太强的人,难以做好稳定性的工作;
  • 原则上不要选择新人,对于团队leader而言,“用新人做别人不愿意做的工作”,这个决定比较容易做出,但是这也相当于是把团队的稳定性放在了一定程度的风险上,用新人做稳定性,其实只是用新人占了稳定性的一个坑而已。新人不熟悉业务,不了解上下游,最多只能凭借一腔热血,对业务和系统感知不足,容易导致线上风险无法被快速发现、故障应急无法迅速组织。
  • 不要用过于"老实"的人,这里的“老实”的定义是不去主动想优化的办法,不主动出头解决问题,但是很能吃苦,任劳任怨,也很能忍耐系统的腐烂和低效;这样的人平时很踏实,用起来也顺手,但是却无法主动提高系统稳定性,有的时候反而会给系统稳定性造成伤害(稳定性就像大堤,不主动升级,就早晚会腐烂)。

1.2,业务团队如何支持稳定性SRE人员

  • 给资源,稳定性从来不只是稳定性负责人的事情,而是全团队的事情,稳定性负责人要做的是建立机制,主动承担,但是稳定性意识,要深入到团队所有人脑子里,稳定性的事情,要能够调动团队一切资源参与。
  • 给空间,做稳定性的人,往往面临一个尴尬场景:晋升困难,主要是因为在技术深度和业务价值两个方面,很容易被挑战,对于业务团队,一定要留给做稳定性的人足够的思考和上升空间,将稳定性与团队的技术架构升级、业务项目结合起来,共同推动。经过集团安全生产团队的推动,目前在阿里,SRE已经有了自己专门的晋升体系。
  • 区分责任,当出现故障时,区分清楚责任,到底是稳定性工作没有做到位,还是做到位了,但是团队同学疏忽了,还是说只是单纯的业务变化;

1.3,开发和SRE的区别

都是做技术的,很多开发刚刚转向负责稳定性时,有些弯转不过来。
举个例子:对于“问题”,传统的开发人员更多的倾向于是“bug/错误”,而SRE倾向于是一种“风险/故障”,所以,两者对“问题”的处理方法是不一样的:

  • 开发:了解业务 -> 定位问题 -> 排查问题 -> 解决问题
  • SRE:了解业务归属 -> 快速定位问题范围 -> 协调相关人投入排查 -> 评估影响面 -> 决策恢复手段
    可见,开发人员面对问题,会首先尝试去探究根因,研究解决方案;而SRE人员首先是评估影响,快速定位,快速止损恢复。目标和侧重点的不同,造成了SRE思考问题的特殊性。

所以,成为一名SRE,就一定要从态度和方式上进行转变,切换到一个“团队稳定性负责人”的角度上去思考问题。

1.4,SRE心态上的一些释疑

下面这些疑惑,有很多是我最初做稳定性的时候面临的问题,这里给大家分享和解释一下我的解决方法:

1.4.1,疑惑1:做好了是应该的,出了问题就要负责任

不出问题,就是稳定性的基线,也是SRE的基本目标,所以这个话虽然残酷,但是也不能说错,关键在于:你要如何去做。
如果抱着一个“背锅” / “打杂”的思想去做稳定性,那么“做好没好处、做不好背锅”这句话就会成为击垮心理防线的最重的稻草。
应对这种心态的最关键一点,在于“做好”不出问题这条基线,要从下面3个方面去做:
1. 及时、快速的响应
这是最关键的一点,作为一个SRE,能够及时、快速的响应是第一要务,遇到报警、工单、线上问题,能够第一时间冲上去,不要去问是不是自己的,而是要问这个事情的影响是什么,有没有坑,有没有需要优化的风险?这是对自己负责;
同时,快速的响应,还需要让你的老板第一时间知悉,这个不是在老板面前爱表现拍马屁,而是要让你的老板第一时间了解风险的发生,一个好的团队leader,一定是对质量、稳定性和风险非常敏感的leader,所以,你要将风险第一时间反馈。这是对老板负责。
反馈也是有技巧的,不仅仅是告知这么简单,你需要快速的说明以下几个信息:

  • 尽快告知当前告警已经有人接手,是谁接手的,表明问题有人在处理了。(这一步叫“响应”)
  • 组织人员,快速定位问题,告知问题初步定位原因(这一步叫“定位”)。
  • 初步影响范围是什么?给出大致数据(这一步方便后面做决策)
  • 有哪些需要老板、产品、业务方决策的?你的建议是什么?(这一步很关键,很多时候是:两害相权取其轻,你的评估和建议,直接影响老板的决策)
  • 当前进展如何,是否已经止血?(这一步是“恢复”,要给出“进展”,让决策者和业务方了解情况)

需要注意的是:如果你响应了,但是没有及时的同步出来,等于没响应,默默把事情做了,是开发者(Dev)的思维,作为SRE,风险和进展的及时组织和通报,才是你应该做的。
当然,你的通报要注意控制范围,最好优先同步给你的主管和产品进行评估,避免范围过大引起恐慌,要根据事情的严重程度来共同决定,这是对团队负责。
及时、快速的响应,是保证不出问题的关键,也是SRE人员赢得领导、业务方、产品和其他合作方信任的关键,赢得信任,是解决“做好没好处、做不好背锅”的基石。
2. 把机制建立好,切实落地
前面已经说过,“稳定性从来不只是稳定性负责人的事情”,这一点,要深入到团队每个人的心里,更要深入到SRE自己心里,一人抗下所有,不是英雄的行为,在SRE工作中,也不值得赞许,很多时候一人抗下所有只会让事情变得更糟糕。

作为一个SRE,想做到“不出问题”这个基线,关键还是要靠大家,如何靠大家呢?就是要落地一套稳定性的机制体系,用机制的严格执行来约束大家,这套机制也必须得到团队leader的全力支持,不然无法展开,这套机制包括:

  • 稳定性意识
  • 日常值班机制
  • 报警响应机制
  • 复盘机制
  • 故障演练机制
  • 故障奖惩机制
  • 大促保障机制

比如,如果总是SRE人员去响应报警和值班,就会非常疲惫劳累,人不可能永远关注报警,那怎么办呢?可以从报警机制、自动化、值班机制3个方面入手:
一方面,让报警更加准确和完善,减少误报和漏报,防止大家不必要的介入,另一方面产出自动化机器人,自动进行一些机器重启,工单查询,问题简单排查之类的工作,还有就是建立值班轮班,让每个人都参与进来,既能让大家熟悉业务,又能提高每个人的稳定性意识。
对于SRE来说,指定机制并且严格落地,比事必躬亲更加重要。上面这些机制,将在后面的章节中详细论述。
3. 主动走到最前线
SRE工作,容易给人一种错觉:“是做后勤保障的”,如果有这种思想,是一定做不好的,也会把“做好没好处、做不好背锅”这个疑惑无限放大。作为SRE人员,一定要主动走到最前线,把责任担起来,主动做以下几个事情:

  • 梳理。主动梳理团队的业务时序、核心链路流程、流量地图、依赖风险,通过这个过程明确链路风险,流量水位,时序冗余;
  • 治理。主动组织风险治理,将梳理出来的风险,以专项的形式治理掉,防患于未然。
  • 演练。把风险化成攻击,在没有故障时制造一些可控的故障点,通过演练来提高大家响应的能力和对风险点的认知。这一点将在后面详述。
  • 值班。不能仅仅为了值班而值班,值班不止是解决问题,还要能够发现风险,发现问题之后,推动上下游解决,减少值班中的重复问题,才是目标。
  • 报警。除了前面说过的主动响应之外,还要经常做报警保险和机制调整,保证报警的准确度和大家对报警的敏感度。同时也要做到不疏忽任何一个点,因为疏忽的点,就可能导致问题。
1.4.2,疑惑2:稳定性总是做擦屁股的工作

这么想,是因为没有看到稳定性的前瞻性和价值,如果你走在系统的后面,你能看到的就只有系统的屁股,也只能做擦屁股的工作,如果你走到了系统的前面,你就能看到系统的方向,做的也就是探索性的工作。
所以,要让稳定性变成不“擦屁股”的工作,建议从下面2个方面思考:

1. 不能只做当下,要看到未来的风险,善于总结

暖曰:“ 王独不闻魏文王之问扁鹊耶?曰:‘子昆弟三人其孰最善为医?’扁鹊曰:‘长兄最善,中兄次之,扁鹊最为下。’魏文侯曰:‘可得闻邪?’扁鹊曰:‘长兄于病视神,未有形而除之,故名不出于家。中兄治病,其在毫毛,故名不出于闾。若扁鹊者,镵血脉,投毒药,副肌肤,闲而名出闻于诸侯。’魏文侯曰:‘善。使管子行医术以扁鹊之道,曰桓公几能成其霸乎!’凡此者不病病,治之无名,使之无形,至功之成,其下谓之自然。故良医化之,拙医败之,虽幸不死,创伸股维。” ----《鶡冠子·卷下·世贤第十六》

与扁鹊三兄弟一样,如果想要让稳定性有价值,SRE同学一定不能站到系统的屁股后面等着擦屁股,必须走到前面,看到未来的风险。既要在发生问题时快速解决问题(做扁鹊),也要把风险归纳总结,推动解决(做二哥),还要在系统健康的时候评估链路,发现隐藏的问题(做大哥);

1. 做扁鹊大哥:在系统健康时发现问题
2. 做扁鹊二哥:在系统有隐患时发现问题
3. 做扁鹊:在系统发生问题时快速解决问题

2. 自动化、系统化、数据化
SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索性、前瞻性的工作,但SRE不可避免的,会面对很多重复性的工作,所以除了要在组织和机制上做好分工,让恰当的人做恰当的事之外,SRE人员要经常思考产品的系统化和弹性化,要常常思考下面几个问题:

  • 常常思考产品和系统哪里有问题,如何优化,如何体系化?
  • 常常思考有没有更好的办法,有没有提高效率的办法?
  • 常常思考如何让稳定性本身更加有价值,有意义?

这3个问题,我觉得可以从3个方面着手:

1,【自动化】
这里自动化,包括自动和自助2个部分。自动是指能够系统能够对一些异常自动恢复、自动运维,这部分,也可以叫做“弹性”,它一方面包括兜底、容灾,另一方面也包括智能化、机器人和规则判断。比如,对一些可能导致问题的服务失败,能够自动走兜底处理逻辑,能够建立一个调度任务,自动对这部分数据进行调度处理;对一些机器的load飚高、服务抖动等,能自动重启,自动置换机器。
自助是让你的客户自己动手,通过提供机器人,自动识别订单类型,自动排查订单状态和节点,自动告知服务规则特征,自动匹配问题类型给出排查结果或排查过程等。
Google SRE设置了一个50%的上限值,要求SRE人员最多只在手工处理上花费50%的时间,其他时间都用来编码或者自动化处理。这个可以供我们参考。
2,【系统化】
系统化,可以体现在SRE工作的方方面面,我觉得,可以主要在“监控、链路治理、演练” 3方面入手。这3个方面也正好对应着“发现问题、解决风险、因事修人” 3个核心。通过系统化,目的是让我们SRE的工作形成体系,不再是一个个“点”的工作,而是能够连成“面”,让SRE工作不再局限于“后期保障/兜底保障”,而是能够通过监控体系、链路风险、演练体系发现问题。
监控、链路治理和演练的系统化,将在后面的章节中详细探讨。
3,【数据化】
稳定性工作,如果要拿到结果,做到可量化,可度量,就一定要在数据化上下功夫,这个数据化,包括如下几个方面:

  1. 数据驱动:包括日志标准化和错误码标准化,能够对日志和错误码反馈的情况进行量化;
  2. 数据对账:包括上下游对账、业务对账,能够通过对账,保障域内数据校准;
  3. 轨迹跟踪:包括变更轨迹和数据轨迹,目标是实现数据的可跟踪,和变更的可回溯、可回滚;
  4. 数据化运营:主要是将稳定性的指标量化,比如工单解决时间、工单数、报警数、报警响应时间、故障风险数、代码CR量,变更灰度时长等,通过量化指标,驱动团队同学建立量化意识,并且能给老板一份量化数据。
    1.4.3,疑惑3:稳定性似乎总是新人的垃圾场

虽然前文中说过,对于团队而言,最好不要让新人从事稳定性工作,但是稳定性毕竟是很多希望“专注工作”的开发人员不愿意做的,这个时候,团队leader很容易做出让一个刚进入团队的人从事稳定性工作,毕竟其他核心开发岗位的人似乎对团队更加重要,也不能调开去从事这种“重要不紧急”的工作,不是吗?
所以这个时候,新人被安排了稳定性工作,也是敢怒不敢言,充满抱怨的做已经约定好的工作,或者浑浑噩噩的划划水,只在需要“应急”的时候出现一下。
这个现状要解决,就要涉及到一个人的“被认可度”,也是我们经常说一个人的价值(在个人自我感知上,我们认为这是“成就感”),很多人可能觉得一个人是因为有价值,才会被认可。而我认为,一个人是因为被认可,才会觉得自己有价值,这样才会产生做一件事情的成就感。
毕竟,能一开始就找到自己喜欢并且愿意去创造价值的事情,是很少的。大多数人是在不情不愿的去做自己并不知道方向也无所谓成败的事情。这个时候,是做的事情被认可,让自己感觉有价值,产生兴趣,而不是反过来,爱一行做一行是幸运的,做一行爱一行是勇敢的。
那么对于稳定性的新人,如果你“被安排”从事了稳定性,那么首先要注意下面3个点:
1,对于稳定性新人,一定要优先考虑如何响应问题,而不是如何解决问题
2,稳定性从来都不是简单的,他的关键,是要做细,这需要细心和耐心
3,稳定性不是一个人的事情,要团结团队内的同学,上下游的同学
在有了上面3点心理建设之后,要开始在自己的心里,构建3张图,3张表:
3张图:

1,系统间依赖图(也包括业务时序,熟悉业务流程),参考5.4节系统依赖梳理方法;
2,流量地图(知道上下游系统,团队内系统的流量关系和流量水位,也同时把控系统架构),参考5.3节流量地图;
3,系统保障图(知道稳定性保障的步骤和打法),参考5.2节作战地图;

3张表:

1,机器资源表(做到占用多少资源,了然于胸,团队需要时能拿得出来),参考第4章资源管控
2,异常场景应急表(出现问题时知道怎么应对,演练知道哪里容易出问题),参考3.2节故障场景梳理;
3,业务近30日单量表(知道哪些业务影响大,哪些业务是重点),参考6.1节黄金链路治理;

心中3张图,3张表,可以让自己心中有数,不会抓瞎,这就像林彪在《怎样当好一个师长》一文中写的那样,心里要有个“活地图”。这样,一个新人才能快速熟悉起团队的业务和系统,明白风险在哪里,要往哪里打。才能让自己的工作变得被认可,直击痛点,有价值。
2,监控
再牛的SRE,也不可能对整个复杂系统了如指掌,也不可能做到对每次变更和发布,都在掌控之内,所以对于SRE人员来说,就必须要有一双敏锐的“眼睛”,这双“眼睛”,无论是要快速响应,还是要发现风险,都能快速发现问题,这就是“监控”。
从运维意义上讲,“发现问题”的描述 和 “监控”的实现之间的对应关系如下:
发现问题的需求描述
监控的实现
减少人力发现成本
自动监控、多种报警手段
及时、准确
实时监控、同比、环比、对账
防止出错
减少误报、同比环比、削峰
不遗漏
减少漏报,多维监控
直观评估影响面
对账&统计
2.1,监控的5个维度
监控的核心目标,是快速发现“异常”。那如何定位异常呢?是不是低于我们设置的阈值的,都是异常?如果要是这么定义的话,你会发现,报警非常多,应接不暇。
要定义异常,就要考虑一个问题:兼容系统的弹性,也就是系统要有一定的容错能力和自愈能力,不然就会非常脆弱和敏感。因此,我对“异常”的定义,是:在服务(体验)、数据、资金3个方面中至少1个方面出现了损失 或 错误。我认为,一个系统,如果在下面3个方面没有出现问题,那么即使中间过程出现了偏差,或者没有按既定路径达到最终结果,我也认为没有出现“异常”(这也是一种弹性):
• 在服务方面没有异常(我把服务错误造成的用户体验,也认为是服务异常)
• 在数据上没有出错(我把订单超时等体验,也认为是数据出现了偏差)
• 在资金上没有资损(走了兜底逻辑,且按照业务可接受的预定范围兜底造成的损失,不算资损,如兜底运费)

所以监控一个系统是否具有健壮性(即:弹性(Resilient),这一点在后面【弹性建设】中详细论述),就要从这3个最终目标去实现,为了达到这3个目标,我们可以从 系统自身、服务接口、业务特征、数据、资金对账 5个维度保障监控的准确性。
下图详细解释了这5个维度:
2.2,监控大盘
建立监控大盘的目的,是在大促等关键时期,在一张图上能够看到所有的关键指标。所以大盘的key point应该是“直观简洁、指标核心、集中聚焦”。在大盘上,我认为要包括以下要素:

  1. 最核心业务入口的qps、rt、错误数、成功率,从这个维度可以看到入口流量的大小和相应时间,成功率。这一点,是在知道入口的健康情况;
  2. 错误码top N,这个维度可以看到系统运行过程中最核心的错误,快速直观定位问题原因(这个需要打通上下游错误码透传)。这一点,是在快速知晓问题出在哪里;
  3. 按业务维度(业务身份、行业、仓储、地区等,根据实际需要决定)分类统计计算的单量、或分钟级下单数量,用于确定核心业务的单量趋势。这一点,只在知道自身业务的健康情况;
  4. 核心下游依赖接口、tair、db的qps、rt、错误数、成功率,需要注意的是,这个一般比较多,建议只放最核心、量最大的几个。这一点,是在知道下游依赖的健康情况;
  5. 其他影响系统稳定性的核心指标,如限单量,核心计数器等,根据各个团队的核心来决定。这一点,是在个性化定义关键影响点的监控情况;
    2.3,避免监控信息爆炸

在SRE的实践过程中,为了保证监控的全面,往往会增加很多报警项,报警多了之后,就会像洪水一样,渐渐的SRE对于监控就不再敏感了,让SRE比较烦恼的一个问题,就是如何做监控报警瘦身?
目前一般来说,我们的监控报警至少包括2种方式:

  1. 推送到手机的报警,如电话、短信报警;
  2. 推送到钉钉的报警,如报警小助手、报警;
    我个人的建议是:

1,【谨慎使用电话报警】,因为这会让人非常疲惫,尤其是夜间,而且容易导致接收者将电话加入骚扰拦截,当真正需要电话报警的时候,就会通知不到位;因此电话报警,一定要设置在不处理要死人的大面积/关键问题上;
2, 【设置专门的唯一的钉钉报警群】一定一定要建设专门钉钉报警群,而且1个团队只能建1个群,中间可以用多个报警机器人进行区分。报警群的目的只有1个:让所有的报警能够在这个群里通知出来。只建一个群,是为了报警集中,且利于值班同学在报警群中集中响应。
3,【报警留底】所有报警,一定要能留底,也就是有地方可以查到历史报警,所以建议所有报警,不管最终用什么方式通知,都要在钉钉报警群里同时通知一份,这样大家只看这个群,也能查到历史报警。在进行复盘的时候,历史报警作用非常关键,可以看到问题发现时间,监控遗漏,问题恢复时间。
4, 【日常报警数量限制】一般来说,如果一段时间内,报警短信的数量超过99条,显示了99+,大家就会失去查看报警的兴趣,因此,一定要不断调整报警的阈值,使其在业务正常的情况下,不会频繁报警。在盒马履约,我们基本可以做到24小时内,报警群内的报警总数,在不出故障/风险的情况下小于100条;这样的好处是明显的,因为我们基本上可以做到1个小时以上才查看报警群,只要看到报警群的新增条数不多(比如只有10条左右),就能大致判断过去的一个小时内,没有严重的报警发生;减少报警的方法,可以采用如下手段:

  • 对于系统监控报警,采用范围报警,比如load,设置集群内超过N %且机器数大于M的机器load都升高了才报警。毕竟对于一个集群而言,偶尔一台机器的load抖动,是不需要响应的。
  • 对于业务报警,一定要做好同比,不但要同比昨天,还要同比上周,通过对比确认,对于一些流量不是很大的业务来说,这一点尤其重要,有些时候错误高,纯粹是ERROR级别日志过度打印,所以只要相对于昨天和上周没有明显增加,就不用报警;
  • 对于qps、rt等服务报警,要注意持续性,一般来说,要考虑持续N分钟,才需要报警,偶尔的抖动,是不用报警的。当然,对于成功率下跌,异常数增加,一般要立即报出来;
  • 复合报警,比如一方面要持续N分钟,一方面要同比昨天和上周,这样来减少一些无需报警的情况;
  • 根据需要设置报警的阈值,避免设置>0就报警这种,这种报警没有意义,一般来说,如果一个报警,连续重复报10条以上,都没有处理,一般是这个报警的通知级别不够,但是如果一个报警,重复10条以上,经过处理人判断,不需要处理,那就肯定是这个报警的阈值有问题;
    5,【报警要能够互补】我们经常提到监控的覆盖率,但是覆盖还是不够的,因为监控可能出现多种可能性的缺失(丢日志、通信异常等),因此要能够从多个维度覆盖,比如,除了要直接用指标覆盖qps,还需要通过日志来覆盖一遍,除了要用日志覆盖一些订单趋势,还要从db统计上覆盖一遍,这样一个报警丢失,还至少有另外一个报警可以backup;

2.4,有效发现监控问题
作为一个SRE人员,很容易发现一个点,如果有几次线上问题或报警响应不及时,就会被老板和同事质疑。同样的,如果每次线上问题都能先于同事们发现和响应,就会赢得大家信任,那要如何做到先于大家发现呢?我的建议是:像刷抖音一样刷监控群和值班群;
一般来说,一个团队的稳定性问题在3类群里发现:BU级消防群、团队的监控报警群、业务值班群;所以没有必要红着眼睛盯着监控大盘,也没必要对每个报警都做的好像惊弓之鸟,这样很快自己就会疲惫厌烦。
我的经验是按下面的步骤:

  1. 首先当然是要监控治理,做到监控准确,全面,然后按照前面说的,控制报警数量,集中报警群,做到可控、合理;
  2. 然后像刷抖音一样,隔三差五(一般至少1个小时要有一次)刷一下报警群,如果报警群里的新增条数在20条以内,问题一般不大,刷一刷就行;
  3. 如果突然一段时间内报警陡增,就要看一下具体是什么问题了,小问题直接处理,大问题分工组织协调;
  4. 消防群中的问题,要及时同步到团队中;
  5. 值班群中的工单,需要关注,并有一个初步的判断:是否是大面积出现的业务反馈;是否有扩大的隐患;
    要做到“有效”两个字,SRE人员,需要有一个精确的判断:当前报警是否需要处理?当前报警是否意味着问题?当前报警的影响范围和涉及人员是谁?当前工单/问题是否可能进一步扩大,不同的判断,采取的行动是不同的。

3,故障应急
前面1.4.1中,有提到如何及时、快速的响应,这一点是作为SRE人员在故障应急时的关键,也是平时处理线上问题的关键。除此之外,在应对故障方面,还有很多事情需要做。
3.1,系统可用性的定义
ufried 在2017年的经典弹性设计PPT:《Resilient software design in a nutshell》中,对系统可用性的定义如下:
可见,影响系统可用性的指标包括2个方面:MTTF(不出故障的时间)和MTTR(出故障后的恢复时间),所以,要提高系统可用性,要从2个方面入手:1,尽量增加无故障时间,2,尽量缩短出故障后的恢复时间;
对故障应急来说,也要从这两个方面入手,首先要增加无故障时间,包括日常的风险发现和风险治理,借大促机会进行的链路梳理和风险治理。只有不断的发现风险,治理风险,才能防止系统稳定性腐烂,才能增加无故障时间。
其次,要缩短出故障之后的恢复时间,这一点上,首先要把功夫花在平时,防止出现故障时的慌张无助。平时的功夫,主要就是场景梳理和故障演练。
3.2,场景梳理
故障场景梳理,重点在于要把可能出现故障的核心场景、表现、定位方法、应对策略梳理清楚,做到应对人员烂熟于心,为演练、故障应急提供脚本;
业务域
关键场景
问题表现
问题定位
止血措施
预案执行
业务影响
上游影响
下游影响
数据影响(操作人)
服务侧、业务侧应对策略
产品端应对策略
相关域,要分别梳理上游和下游
服务场景,每行列出一个场景,要列出所有可能的场景
逐条列出当前场景的所有可能表现
对应前面的问题表现,列出每一个表现的定位方法和指标
对每个定位的原因,给出快速止血的措施
逐条列出可以执行的预案
逐条列出可能导致的业务影响和严重程度、范围
逐条列出在上游的影响
逐条列出对下游的影响
逐条列出数据的影响(qps、rt、单量),以及捞取数据的方法、订正数据的方法
列出服务端、业务侧的应对话术和退款、赔付、补偿方案;
列出产品侧对业务侧的沟通方案、客服话术、产品降级方案;
通过这种程度的梳理,SRE以及其掌控的故障应对人员,能够快速的明确发生问题的场景,以及场景下的影响、表现、定位方法、应对策略。当然,如果要把这些场景牢记,做到快速应对,就需要依靠:演练。
3.3,故障演练
演练对故障应急无比重要,但是,我个人十分反对把演练作为解决一切问题的手段。演练本身,应该是验证可行性和增加成熟度的方式,只能锦上添花,而不能解决问题,真正解决问题的应该是方案本身。
• 不要进行无场景演练:有些演练,不设置场景,纯粹考察大家的反应,这种演练,上有政策下有对策,表面上是在搞突然袭击,其实已经预设了时间段,预设了参加的域,不太可能做到完全毫无准备,到了演练的时间点,大家可以通过死盯着报警群,调整各种报警阈值的方式,更快的发现问题;而且完全无场景的演练,一般只能演练如fullGC,线程池满,机器load高,接口注入异常,对于一些数据错误,消息丢失,异步任务积压等场景,很难演练。
针对性的,我建议多进行场景演练,各域要提前进行3.2节这种详细的场景梳理,通过场景攻击,提高大家的应对成熟度。事实上,现在横向安全生产团队不对各个业务团队进行场景攻击的原因,也是因为横向安全生产团队自己也不熟悉各个业务团队的业务场景,这个就需要加强对业务场景攻击方式的规范化,横向安全生产团队也要加强机制建设,让纵向业务团队能够产出场景,而不是每次都在线程池、fullGC、磁盘空间这些方面进行攻击。
• 也不要无意义的提速演练:演练本身虽然确实有一个重要目的是提高应对熟练度,但是不同的业务是有区别的,有些业务的发现本身,就不止1分钟(比如某些单据积压场景,消息消费场景),这些场景,如果不参加评比,或者流于形式了,就会让攻击本身没有意义。
针对性的,我建议各个业务根据各自的特点,定制演练。如:普通电商业务,关注下单成功率,有大量的实时同步调用;新零售业务,关注单据履约效率,有大量的异步调度;每个业务,根据实际场景和业务需要,制定“有各自特色的要求”的演练标准,演练不一定要千篇一律,但是一定要达到业务的需求标准。这样也更加有利于演练场景的落地,有利于蓝军针对性的制定攻击策略。
各个SRE同学,不管大的政策怎么样,还是要关注团队内部的场景本身:

  1. 对于系统性故障注入(load、cpu、fullGC、线程池等),直接套用集团的mk注入即可;
  2. 对于服务型故障注入(下游异常、超时,接口超时、限流),mk也有比较好的支持;
  3. 对于订单异常型故障注入,要自主开发较好的错误订单生成工具,注入异常订单,触发故障报警;
  4. 对于调度、积压型故障注入,要关注schedulex、异步消息的故障注入方式,同时防止积压阻塞正常订单影响真正的线上业务;
    同时,在演练前后,要注意跟老板的沟通,要让老板理解到你组织的演练的目标和效果,不然就不是演习,而是演戏了。要和老板的目标契合,在演练过程中,通过演练提高大家对业务场景的理解深度和对问题的应对速度,增加大家的稳定性意识,达到“因事修人”的目的。

3.4,故障应急过程
如果不幸真的产生了故障,作为SRE,要记得如下信息:

  1. 冷静。作为SRE,首先不能慌,没有什么比尽快定位和止损更重要的事情
  2. 拉电话会议同步给大家信息。记住,在出现故障时,没什么比电话会议更加高效的沟通方式了;
  3. 参考前面1.4.1节中的SRE人员快速响应流程,在电话会议中同步给大家:
    • 尽快告知当前告警已经有人接手,是谁接手的,表明问题有人在处理了。(这一步叫“响应”)

• 组织人员,快速定位问题,告知问题初步定位原因(这一步叫“定位”)。
• 初步影响范围是什么?给出大致数据(这一步方便后面做决策)
• 有哪些需要老板、产品、业务方决策的?你的建议是什么?(这一步很关键,很多时候是:两害相权取其轻,你的评估和建议,直接影响老板的决策)
• 当前进展如何,是否已经止血?(这一步是“恢复”,要给出“进展”,让决策者和业务方了解情况)

  1. 组织大家按照故障场景梳理的应对方案进行应对,如果没有在故障场景列表中,一定要组织最熟练的人员进行定位和恢复。
  2. 故障过程中,对外通信要跟团队和老板统一评估过再说;
  3. 处理故障过程中,要随时组织同学们进行影响数据捞取和评估,捞出来的数据,要优先跟老板、业务熟练的同学一起评估是否有错漏。
  4. 在处理完故障后,要及时组织复盘(不管GOC是不是统一组织复盘,内部都要更加深刻的复盘),复盘流程至少包括:详细的时间线,详细的原因,详细的定位和解决方案,后续action和改进措施,本次故障的处理结果。
    我个人其实不太赞同预案自动化和强运营的故障应急方案,这一点也是给安全生产同学的建议,比如预案自动化,有很强的局限性,只有在明确预案的执行肯定不会有问题、或者明显有优化作用的情况下,才能自动执行。否则都应该有人为判断。

强运营类的工作,会导致人走茶凉,比如GOC上自动推送的预案,故障场景关联的监控这种,一方面应该尽量减少强运营的工作,另一方面应该定期组织维护一些必要预案。
3.5,与兄弟团队的关系
如果兄弟团队发生故障,一定注意:

  1. 不能嘲笑别人,看笑话;
  2. 不能当没事人,高高挂起,要检查自身;
  3. 不能话说的太满,比如说我肯定没故障。
    尤其是1和3,非常邪性,嘲笑别人的团队,或者觉得自己万事大吉,很容易沾染故障。(其实本身是由科学依据的,嘲笑别人的,一般容易放松警惕)

4,资源管控
作为一个SRE,在资源管控领域,一定要保证自己域有足够的机器,同时又不会浪费太多。我个人的建议是,核心应用,应该控制load在1-1.5左右(日常峰值或A级活动场景下),控制核心应用在10个以内,非核心应用,应该控制load在1.5-2左右(日常峰值或A级活动场景下)。目前集团很多应用load不到1,甚至只有0.几,其实很浪费的。
同时,一个团队的SRE,至少随时手上应该握有20%左右的空余额度buffer,方便随时扩容,或者应对新业务增长。这些额度,目前按照集团的预算策略,只要不真的扩容上去,都是不收费的,所以应当持有。
除了机器以外,tair、db、消息、精卫等,也要如上操作,除了年初准备好一年的预算,还要额外准备20%左右的buffer。
SRE要自己梳理一份资源表,表中一方面要明确有哪些资源,余量多少,另一方面要明确资源的当前水位、压力。
比如机器资源,要关注当前机器数、额度、load,如:
再比如对数据库资源,要关注数据库的配置、空间、日常和峰值qps、单均访问量(创建一个订单,要读和写DB多少次,这一点很关键):
5,大促保障机制
对于SRE来说,大促、尤其是双十一,是一年一度的沉淀系统、防止腐烂、摸清水位、剔除风险的最佳时机,所以一定要加以利用。对于团队的其他开发,大促是一次活动而已,对于SRE来说,大促是系统稳定性提升的过程,与其说是保障大促稳定,不如说是“借大促,修系统”。
所以,一定要转变思想,我们做大促保障,不仅是要“保持系统稳定性”的,更是要“提升系统稳定性”的。保持重在压测、摸排水位、限流、预案,而提升重在链路排查、风险治理、流量提升、兜底容灾。
一般的A级大促,或间隔较小的S级大促,应以“保持”稳定为主,但对于双十一、618,这种S级大促,应当以“提升”稳定为主;下面,我们重点就要介绍如何借助大促的机会,来提升系统稳定性。
5.1,业务团队大促保障的一般流程
一个完善的大促保障包括如下步骤(可参考下面的作战地图):

  1. 明确本次大促的作战地图,明确时间节点和步骤;
  2. 输入活动玩法和节点,明确关键时间点和GMV目标、单量峰值;
  3. SRE产出备战报告,其中包括保障目标,大促保障时间节奏,作战地图,流量地图(如果已经绘制出来的话),资源规划地图,业务新的变化和技术的挑战,上下游链路依赖图,核心风险和专项分工(精确到人和完成时间),同时SRE要指定监控、压测、演练、预案专项负责人(leader要为SRE放权和背书)。
  4. SRE绘制流量地图,明确接口流量,模块链路,关键风险。
  5. SRE和开发同学共同梳理上下游接口依赖流量和峰值,给出限流阈值并沟通上下游;
  6. 开始链路梳理,一般由熟悉业务和系统的开发同学梳理,然后拉上上下游、梳理同学、测试同学、SRE、leader一起review,review时,SRE要产出5个点:强弱依赖、风险点、限流、降级预案、新业务特征;
  7. 根据梳理出来的风险点展开集中治理,大的风险点要开专项治理,这一阶段要全员听调,风险点要各自去做,SRE只负责把控全局、跟踪进度、验收结果。
  8. 治理完成后,开展监控走查,更新监控大盘,建议由SRE指定监控专人负责;
  9. 压测开始前配置限流,压测过程中还要不断根据情况调节限流值;
  10. 开始压测,分为专项重点压测(一般单接口、单机),上下游压测,全链路压测,建议由SRE指定压测责任人;
  11. 录入预案,并对预案进行测试和验证,拉上业务、产品、测试一起,组织预案演练,验证预案可行性,要求业务方知晓预案执行后的影响。建议由SRE指定预案和演练责任人。
  12. 上述过程中都要记录未完成点和check点,在大促前,要对checklist 逐项check;
  13. 产出作战手册,包括值班表,工具清单,大促期间作战流程(精确到分钟级的操作时间点和人员),再次通知业务侧相关预案的影响。
  14. 大促开始前一天,SRE要进行战前宣讲,一般包括大促期间发布流程、审批流程、白名单人员名单,工单汇报方法,大促交流群,大促期间的红线和注意事项。
  15. 大促结束后,要进行复盘,复盘内容包括:目标是否达到,大促期间达到系统指标、单量,系统、业务的能力亮点,大促保障期间大家做的工作汇总,保障期间的产出亮点,后续action项,未来保障的思考和计划。
    5.2,作战地图

下面一张图,比较详细的介绍了整个双十一作战的过程:一次大促保障,大致分为前期的容量评估和准备阶段,中间的系统健壮性提升阶段,后面的压测摸底、预案演练阶段,最后的战前check和值班阶段。其中前2个阶段才是核心。
在这张作战地图中:

  1. 容量准备阶段,重在根据业务活动节点,输入流量和单量,梳理上下游流量压力,绘制流量地图,统计上下游接口压力,评估限流阈值和资源缺口,同时准备资源。这个阶段是关键阶段
  2. 系统健壮性提升阶段,重在链路梳理和风险发现,对发现的风险进行专项治理。这个阶段是最核心阶段
  3. 在压测阶段,不能只被动的参加全链路压测,还要优先在自己域内进行单点压测和上下游链路压测,这样在全链路压测的时候才不会掉链子。同时,压测要关注几个事情:1,有没有达到流量预期;2,有哪些点是瓶颈点;3,对瓶颈点如何解决,如何降级或限流?4,上下游在压测过程中有没有可能与自己域相互影响的地方;
  4. 在预案&演练阶段,要注重实效,不要走形式化,演练的目的是验证预案的可行性和可操作性,不是为了证明“我演练过了”,如果预案不进行演练,在大促时就有可能出现:1,不敢执行预案,因为不知道会发生什么;2,执行了预案之后发现有坑;3,执行了预案之后发现无效;
  5. 在战前准备阶段,重在检查和宣讲,检查要查缺补漏,要有checklist,一项项check;宣讲要有作战手册和红线,作战手册要精确到时间点和人,每个时间点由谁做什么要明确;红线一定要宣讲清楚,大促是一场战役,如何报备,如何响应工单,各自分工是什么,哪些红线不能踩,要明确到位,避免低级骚操作带来的风险。
    下面重点介绍容量准备阶段(流量地图和评估)和系统健壮性提升阶段(梳理和治理);

5.3,流量地图&流量评估
绘制流量地图的目的,是让SRE人员对于域内和上下游流量有明确的了解,在心中有一张全局流量的“图”。流量地图应该包括几个要素:

  1. 系统核心模块和模块间的依赖关系;(用方块和连线标识)
  2. 核心功能流量流向;(用不同颜色的连线区分)
  3. 核心接口/功能的单量或qps;(在接口上方标注)
  4. 链路上的主要风险点;(用红色方块标注)
    在进行流量评估时,关键在于要明白上下游依赖、是否有缓存、平时单量和大促单量:

本域应用名
对方域
对方应用host
业务场景
服务接口
对方owner
依赖方式、强弱
日常峰值
大促预估峰值
缓存击穿情况下的悲观峰值
appname
商品域
xxx-itemhost,精确到host
时间片商品查询
service.method~params
某某
hsf、强,有缓存
1000
2000
5000
e.g.
流量评估除了要跟域内对齐外,更加重要的是上下游的沟通,这一点非常重要,要相互明确各自域的瓶颈、限流、承诺;在对上做出流量承诺的时候,一定要优先考虑保护自己域;在对下提出流量要求的时候,要同时提出有保护措施(如缓存)情况下的正常流量和无保护措施下最糟糕流量。
5.4,链路梳理&治理
这个是SRE能够借双十一提升系统性能的重中之重,一般,我建议遵循下面的方法:
大促保障准备时间有限,所以不能等全都梳理完了之后才开始治理。一般来说是先根据经验和日常的发现,治理一波,同时进行梳理,然后对梳理进行review时,发现新的风险点,并进行治理。
一般由熟悉业务和系统的开发同学梳理,然后拉上上下游、梳理同学、测试同学、SRE、团队leader一起review,review时,SRE要重点关注5个点:
• 强弱依赖
• 风险点
• 限流
• 降级预案
• 新业务特征
功能
细粒度场景
风险点action
限流
降级预案
强弱依赖
新业务
功能描述,根据功能进行划分
将场景细粒度细分,列表化
可能存在的风险点
当前场景的限流评估
当前场景可能存在的降级预案
上下游间的强弱依赖,强依赖的要关联预案、限流、降级等
当前场景从上次大促到现在的增量变更
梳理的目的不是仅仅评估风险,更重要的是治理,治理不一定是代码层面的升级,可能有如下方式:

  1. 对可能有流量尖峰、造成系统冲击的接口,加特殊限流,如全局限流、线程数限流;
  2. 对流量尖峰,加dts等异步任务,进行削峰填谷;
  3. 对需要做降级的地方加降级预案;
  4. 对需要兜底容灾的地方加自动兜底;
  5. 对强依赖的下游接口,加本地缓存或tair缓存(慎之又慎,同时下游绝对不能期待上游加缓存来降低访问量);
  6. 治理的时候,要注意几个最容易出问题的地方:缓存、异步消息、异步任务、数据库量级、数据库关联查询量或批量更新量(比如1主单关联N子单的情况)、接口超时时间、重试次数、幂等、sql limit和查询上限;
  7. 需要提前禁写的,要产出禁写预案
  8. 对大促期间可能随时调整的业务参数,要留出口子,方便调整,做好审批流程报备流程、check流程;
    在链路治理时,建议可以建立一个aone项目空间或者lark表格,将所有要做的事情,列成工作项,每完成一项勾掉一项,当所有工作项都完成时,项目就结束了,治理也达到了一个水平。

5.5,压测
在大促保障过程中,提到压测,有同学可能习惯性的将其归结到“全链路压测”中,这个是不全面的,压测应该贯穿整个大促保障的过程。
压测分为3种,分别是单点压测(如:单机压测和单接口压测),单链路压测,全链路压测。
• 单点压测的目标就是考察单点性能,主要用于发现单机或者单接口的性能水位和性能热点,为了后面计算限流阈值,评估集群规模做准备;应该在大促前就开始,随时可以进行,不一定要在正式环境。如果只是发现性能热点,可以使用火焰图分析;如果是评估性能水位,就要进行摸高,一般对于4核8g的机器,至少要摸到load 到5,cpu利用率到75%,内存到70%,线程数超过800个,这4个指标至少要达到1个才能算。
• 单链路压测的目标是考虑单链路多个应用间多级调用的性能,用于评估某个功能点的水位,为的是应对活动过程中某个业务的量级,评估的目标是整个链路中至少一个节点达到性能瓶颈为止。整个链路的性能水位,是由最低的那个节点接口/应用 决定的。在压测过程中,建议摸高,一直摸到其中一个节点达到瓶颈。单链路压测建议在业务给出活动目标后,就要梳理出核心链路有那几条,这几条核心链路是一定要压测的。需要注意的是,如果有非核心链路影响了核心链路,那么大促时这个非核心链路要么做降级预案,要么改为核心链路死保。
• 全链路压测的目标是预演,而不是压测,这一点跟前面的压测是完全不同的,需要特别注意,虽然全链路压测本身也会摸高,但是它摸高是预设目标的,比如本次大促50wqps创建,预计摸高也就是120%,不会一直摸高。全链路压测其实是在将各个团队压测的结果进行汇总并验证,所以现在全链路压测一般要去一次通过。这就要求各个团队要提前调通内部各条单链路。
另外,如果链路有涉及外部partner,建议一定要在压测中走通,不要轻易相信外部partner自己的压测结果,也不能认为“他们承诺了,他们要做到”,这种想法,在大促的时候,partner的承诺无法做到的比比皆是,不要最后坑了自己的业务,导致业务单子积压。
6,日常稳定性机制
对于SRE来说,在日常稳定性保障过程中,建立一个行之有效的机制体系,比事必躬亲更加重要。一般来说,SRE在日常稳定性保障过程中,要建立的机制如下:

  1. 黄金链路识别治理机制
  2. 值班机制
  3. 复盘机制
  4. 日常资源(机器、中间件)管控和记账机制
  5. 日常风险和问题报备机制
  6. 团队权限管控机制
  7. 日常演练机制
    下面重点说一下黄金链路和值班:

6.1,黄金链路治理
黄金链路,就是核心链路,或者说,是团队的生命线链路,由最核心的应用,最关键的DB,最需要死保的接口,支撑的最核心业务。所以黄金链路的治理就一个目标:不要让非核心的东西,影响了核心的;这里的“东西”,包括业务、系统、db;
黄金链路治理机制,是要在日常工作中,做如下工作:

  1. 每隔一段时间(半个月左右),要统计一次线上订单各业务单量,有条件的团队,建议分配专门负责数据驱动的人员,建立fbi报表,或者建立数据分析系统。这些数据产出的目标,是统计业务的量级和趋势,报告最核心单量最大的业务、最容易出问题的业务、和发展最快的业务;
  2. 对业务和应用链路,按重要性进行划分。把重要的挑出来,把不重要的,不死人的,可以降级的摘出去;
  3. 开始治理,要求核心链路上的系统,不能依赖非核心的接口,不能依赖非核心的db。非核心链路上的任何降级措施,不能影响核心链路的功能;
  4. 核心链路和非核心链路,也不能依赖共同的基础组件,注意,核心链路不等同于核心应用,现在很多核心应用里的非核心功能太多了。导致每次改非核心功能,要发布核心应用,甚至两者共用底层组件,导致底层发布影响上层。比如,非核心功能要改一个消息发送接口,正好核心功能也依赖了这个接口,非核心功能改动里的bug,可能导致核心功能挂掉;
  5. 核心链路和非核心链路,要有2套发布等级,2种监控等级。防止相互影响。
    黄金链路治理做好了,团队出现高等级(P1/P2)故障的可能性会大大降低。

6.2,值班机制建设
值班,既能让大家熟悉业务,又能让SRE不那么劳累,因此,值班人员一方面要响应报警,另一方面要响应工单。SRE要做的事情,是安排好值班表和值班机制,明确值班人员的职责。一般来说,可以如下建设:
• 事前:
• 值班人员必须参与故障演练(包括故障止血方法)以及熟练使用各种故障排查工具。
• 值班人员需要明确值班的范围,包括预警群、工单群、线上问题反馈群、答疑群等;
• 值班人员在值班周期内,应该减少业务工作安排;
• 值班人员的值班周期不宜过长或者过短,以一周为宜;
• SRE应该尽可能的多值班,只有对业务熟悉的人,才能更加敏锐的发现系统的问题;
• 新进入团队的同学,应该先值几个月的轮班,通过值班熟悉业务,是最快的方式;
• 事中:不管是工单问题还是报警,如果短时间无法定位原因的情况,立即把相关人员拉入电话会议,如果遇到卡点,需要把接力棒明确交接给下一位,事后再回顾卡点的原因。对于会影响上下游的问题(事故),需要立刻通知上下游,可能引起故障的,需要GOC报备。
• 值班人员自己发现问题后,应该第一时间在群里反馈说处理中,签到通知其他人已经在处理
• 关闭当前报警的通知(关闭方法集中沉淀到常见问题处理手册),防止电话打爆掩盖其他更重要的报警,事后再重开报警(由当前值班人员保证)
• 事后:值班人员和SRE一起组织问题Review,并把涉及到稳定性的操作内容记录在稳定性流程中。对于常见问题的排查沉淀到一处,后续工具化和演练。
值得注意的是,值班不应该是简单的人力消耗,应该花费时间开发工具平台,包括问题智能排查、订单详情查询,业务日志轨迹、数据变更轨迹查询,并且开发问题自动排查、问题解决方案自动推荐机器人,做到自动答疑、自助答疑,减少工单数量,提高问题排查效率。
7,弹性建设
系统的健壮不是没有报警,也不是不出故障,服务、数据、体验都不受影响,我们才认为系统是健壮的。一个系统想要健壮,应该具有一定的弹性,系统的弹性体现在系统是:容灾的、可自愈的、一定程度上容错的、可运营的。
这里,有ufried 在2017年的弹性设计PPT:《Resilient software design in a nutshell》,这个PPT非常清晰准确的阐述了“弹性软件设计”的概念,下图取自该PPT:
对于我个人的实践而言,我自己倾向于重点做好其中的发现、恢复、预防、缓解4个部分。
8,价值建设
我想把“价值建设”这个事情,放到本文的最后,作为对SRE人员提升工作信心的鼓励。
开发人员容易趋向于实现什么,如何做到,Dev工作的目标,是电脑屏幕和系统功能;而SRE,很多都是电脑外的工作:上下游沟通,流量评估,演练组织,资源调度,故障应急,系统治理。工作内容既有代码里的ifelse,也有Excel上的各种统计,还有PPT上的各种曲线。很多人觉得这样的事情很boring,倾向于做一个专心写代码的美男子,但是一个开发人员,偶尔抬起头看着窗外,心里对那些横跨多域,调度多个资源,影响力辐射多个团队甚至BU的人,也有一丝羡慕和无力感。
SRE恰恰给了这样一个机会,它能让一个级别不怎么高的开发人员,调度域内尽可能多的资源,从事多种能够辐射影响力的机会。
SRE最容易拿到数据,就要去考虑一个问题:价值导向,当前做的事情,有多少数据量,有哪些是无用的长尾的,有哪些可以下线掉。哪些是造成资损的,哪些是需要推动解决的异常订单,哪些是有巨大价值的。哪些是客户抱怨最多的,耗时耗人力最大的。
开发人员容易正向思维,而SRE人员,一定要去做反向思维,通过价值来考量,通过价值反推意义,提效降本。
绝大多数情况下,一个好的SRE,和一个差的SRE,差距就体现在3个方面:好的SRE会随时发现和响应问题,会建立体系化,会极其细致的落地解决方案。 这其中,随时发现和响应,是第一态度,是要持之以恒的心态,而不是一个作秀和表现;落地是基础,是保障稳定的生命线,细致的落地,是决定你是走走过场,还是真的做深的根本;体系化是框架,是决定机制能否持久以及你自己累不累的原因。
另外,一个团队(尤其是业务团队)的SRE是极度需要老板的鼎力支持和权力背书的,SRE往往没有组织架构上的权力,这个时候,老板真正意义上的支持就很重要,如果一个SRE,你的老板总是口头上跟你说稳定性不能松懈,但是几乎从来不愿意在稳定性上给你支持,一心只想做业务,你就要考虑2个方面:1,是不是你做的不落地,没有得到老板信任;2,换个老板。
但是,如果老板愿意给你时间和空间,也愿意投入资源,给你权力,那你就要认真做好SRE这份工作,做出价值。一般来说,老板愿意给你权力的时候,就意味着老板愿意帮你背责任,所以不要怕出错,要先把态度做出来,老板会支持你的。但是注意:老板给你的权力用好了,老板才会给你背责任,用不好,责任就是你自己的。这一点无论在哪个团队,无论在哪个层级,都是一样。
9,团队招聘
最后的最后,我的团队招聘啦:
阿里巴巴零售云事业部全渠道团队诚招精英(层级不限,开发 or SRE),共同建设面向商家的零售解决方案;
【我们是谁】
我们是阿里巴巴零售云事业部-技术部-全渠道团队,主要承接零售云的全渠道线上线下一体化业务;目前是新零售建设的关键时期,也是国内2B业务蓬勃发展的重要时期,我们根植于阿里云,打造面向商家的全新业务模式,定制商家需要的新零售服务系统,面向弹外提供商业化零售解决方案;
【要做什么】
我们目前承接新零售模式下多个商家的全渠道业务,在系统打造上精耕细作,希望能为您提供在商家协调、服务定制、SaaS化、高可用架构、行业标准化等方面的工作空间,共同探索在商家长期陪伴、多版本、行业标准化和定制化、降本提效等方面的产品化方法;
我们作为一只商业化技术团队,也将提供更多的接触商家的机会、深入了解各个行业特点的机会、以及弹外和阿里电商体系完全不一样的玩法机会。
同时,我们也在深耕SRE建设,同步招聘有志于SRE之路的人才。
【有什么要求】

  1. 只要你有工作热情,希望体验新零售、精细化零售业务模式下的新鲜刺激;
  2. 只要你想探索除2C模式电商以外的其他零售商业可行性,了解弹外零售业务的特点;
  3. 只要你有系统隔离、领域设计、高可用、提效降本、业务产品化经验或者对上述这些感兴趣;
  4. 或者对面向商家的商业化、新零售业务、标准制定感兴趣。
  5. 仅面向研发技术同学或SRE同学,要求有3年以上Java开发经验,有SaaS企业开发经验或国内大型互联网开发经验者优先;
    【工作地点】

阿里巴巴杭州西溪园区;
【如何联系】
邮件您的简历至:yinggang.zg@alibaba-inc.com。

目录
相关文章
|
消息中间件 缓存 监控
系统稳定性建设实践总结
2020年,注定是个不平凡的一年。疫情的蔓延打乱了大家既定的原有的计划,同时也催生了一些在线业务办理能力的应用诉求,作为技术同学,需要在短时间内快速支持建设系统能力并保障其运行系统稳定性。恰逢年终月份,正好梳理总结下自己的系统稳定性建设经验和思考。
系统稳定性建设实践总结
|
5月前
|
缓存 运维 监控
成为工程师 - 如何提升系统稳定性(1)
成为工程师 - 如何提升系统稳定性(1)
|
8月前
|
消息中间件 监控 前端开发
研发人员如何做好日常工作的稳定性保障
本文介绍了一些研发人员如何做好稳定性建设的工作事项
259 0
|
存储 运维 Prometheus
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.1监控预警体系建设
303 0
|
8月前
|
缓存 运维 监控
|
运维 监控 测试技术
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
170 0
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(4)
|
消息中间件 缓存 监控
四个步骤,教你落地稳定性保障工作
本文将稳定性保障工作归纳为 梳理异常情况->配置监控告警->评估影响面->预定解决方案 四个步骤。从四个步骤详细介绍稳定性保障工作的落地方法。
49824 1
四个步骤,教你落地稳定性保障工作
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.3 平台网站业务稳定性保障——5.3.4故障演练与紧急预案设计
204 0
|
弹性计算 监控 负载均衡
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(3)
176 0
|
弹性计算 运维 监控
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)
《云上业务稳定性保障实践白皮书》——五.行业客户稳定性保障实践——5.1 游戏业务稳定性保障——5.1.1新游上线稳定性保障实践(2)
208 0