
运维做久了会碰到一类特别别扭的复盘:不是排障多复杂,也不是团队能力有问题。把时间线一拉,真正在排查的时间不长,可MTTR就是压不下来。
一次典型的案例:工作日下午,核心业务系统响应变慢。告警14:03触发,14:11开始介入,14:39定位到数据库连接池耗尽,14:43处理完。排查加处理28分钟,不算慢。
但MTTR算出来是137分钟。
因为业务受影响实际从12:26就开始了——中间告警没触发,有将近两小时空窗。加上后面的确认、核实、关单,时间拖到了16:23。
把时间线拆成段分析,发现时间主要耗在三个地方。每个都不是技术问题,都是流程断点。
断点一:现场信息失真,排查方向跑偏15分钟
故障刚触发时,服务台传到运维侧的描述是"系统响应慢,可能是网络问题"。工程师拿到这句话,先看网络——出口带宽、核心交换延迟,一通扫下来都正常。又看应用服务器的CPU和内存,也没异常。花了15分钟才绕回来发现是数据库连接池的事。
后来翻原始记录,用户原话有一句"登录进去就卡,不只是打开慢"。这句话如果完整传到工程师手里,第一判断方向大概率直接奔应用层或数据库。
但服务台受理时,把"响应慢"默认关联到了"网络",无意间过滤掉了关键信息。
这种信息损耗不是个例。 用户描述的是现象,监控反映的是指标变化,服务台转述时又做一次筛选。三个来源各有损耗,拼到工程师手里经常是偏的。
解决:服务台受理加3个必填字段
- 哪一步卡住了——登录卡、查询卡、还是提交卡
- 影响谁——哪些用户、哪块业务
- 什么时候开始的——之前有没有类似情况
就这三条,加上以后工程师拿到工单时的第一判断命中率明显高了。
更进一步,如果把报障入口从电话/群聊统一到多渠道标准模板(邮件、企微、移动端都走同一套字段),翻译环节没了,信息失真就少了一大截。
断点二:工单挂着"处理中",实际半小时没人动
这是MTTR里最隐蔽的时间黑洞。
值班时扫一眼工单列表,状态写着"处理中",觉得有人在跟。实际那张单已经停在那里了。
跨组协作时特别多:A组排完自己这段,转给B组。B组发现还需要A组信息,在内部问了一句,然后去处理别的了。A组没注意到。工单状态一直挂着"转派-处理中",表面上没问题,但实际没有人在推了。
工单系统通常只管"有没有人接",不管"接了之后有没有在动"。这个差别平时看不出来,到跨组故障就全暴露了。
解决:加两条超时规则
第一条:接单超时。 高优先级10分钟、普通30分钟内无人接单,自动推提醒。这条大多数团队都有。
第二条(关键):推进停滞提醒。 工单在"处理中"状态超过一定时间没有任何更新(没新备注、没状态变化、没转派动作),系统提醒当前处理人补充进展。再超时一轮还是没动静,直接升级通知值班负责人。
很多团队只做了第一条没有第二条。单子接了,然后停了半小时一小时无人知道。这段"假处理"的时间全部算进了MTTR。
重要细节:超时提醒必须推到人真正看的地方——企微/钉钉/短信,不是弹在系统后台。处理人收到"你的单子停了",值班负责人收到"有一张高优先级单在卡"。推到手机上和推到后台里,差别非常大。
断点三:业务侧早就感知到了,运维两小时后才知道
这是最让人后怕的一段。
业务12:26开始受影响,运维14:11才介入。中间将近两小时。
翻群聊记录,12:50运营同事就在群里说了"系统有点慢,是不是在维护"。没人接话。13:30又有人在另一个群说"客户反馈系统卡"。有人回了句"我看下",但没有转成工单或通知值班。
一直等到14:03监控告警触发,运维才正式介入。
根本问题:升级路径全靠人判断。 业务的人觉得"可能不是大事",运维的人没在那个群里。信号在组织边界上消失了。
解决:两件事
1. 工单时效自动升级。 高优先级超时未处理的,系统直接升级通知值班负责人。不靠人判断要不要上报。
2. 给业务侧一个正式的上报入口。 不是群聊里喊一嗓子,是一个有记录的渠道——工单系统快速报障入口、或飞书/钉钉服务机器人。核心就一条:业务侧感知到的异常信号不能停在群聊里消失,要能进入运维的接收队列。
还有一层更根本的:加一层端到端业务品质探测。定时从用户视角跑关键操作——页面加载时间、接口响应时间、DNS解析速度。如果当时有这层探测在跑,12:26业务开始变慢时探测数据就已经在走高了,不用等设备指标触线才出告警。
三个断点,同一个问题
表面看是三件事,底层是同一个问题:信息和时效在流转过程中出了岔子。
- 第一个断点:信息在传递链路上失真了
- 第二个:时间在流程节点上停滞了
- 第三个:信号在组织边界上断掉了
MTTR不是一个人或一个环节的事,它是一条链。任意一环断了,时间就在那里耗着。
建议的改进顺序
如果你现在也觉得MTTR不太对劲,建议按这个优先级:
1. 先加推进停滞提醒(成本最低)。 配一条超时规则,十分钟就能完成。通知走企微/钉钉推到手机上,立竿见影。
2. 然后标准化服务台的受理字段。 改的是表单不是人的习惯,推广阻力不大。三个必填字段加上去,排查方向偏的概率就能压下来。
3. 最后推业务侧上报通道+品质探测。 推进周期最长,但砍掉的是MTTR里最大的那一段"无人感知期"。前两步见效后拿着数据去推,阻力会小很多。
小结
MTTR降不下来,很多时候不是排障不够快,是排障之外的时间没有被当成流程问题来管。信息失真、流程停滞、信号断档——找出这几个断点来治,比催工程师"排快点"有用得多。