值班,既能让大家熟悉业务,又能让SRE不那么劳累,因此,值班人员一方面要响应报警,另一方面要响应工单。SRE要做的事情,是安排好值班表和值班机制,明确值班人员的职责。一般来说,可以如下建设: • 事前: • 值班人员必须参与故障演练(包括故障止血方法)以及熟练使用各种故障排查工具。 • 值班人员需要明确值班的范围,包括预警群、工单群、线上问题反馈群、答疑群等; • 值班人员在值班周期内,应该减少业务工作安排; • 值班人员的值班周期不宜过长或者过短,以一周为宜; • SRE应该尽可能的多值班,只有对业务熟悉的人,才能更加敏锐的发现系统的问题; • 新进入团队的同学,应该先值几个月的轮班,通过值班熟悉业务,是最快的方式; • 事中:不管是工单问题还是报警,如果短时间无法定位原因的情况,立即把相关人员拉入电话会议,如果遇到卡点,需要把接力棒明确交接给下一位,事后再回顾卡点的原因。对于会影响上下游的问题(事故),需要立刻通知上下游,可能引起故障的,需要GOC报备。 • 值班人员自己发现问题后,应该第一时间在群里反馈说处理中,签到通知其他人已经在处理 • 关闭当前报警的通知(关闭方法集中沉淀到常见问题处理手册),防止电话打爆掩盖其他更重要的报警,事后再重开报警(由当前值班人员保证) • 事后:值班人员和SRE一起组织问题Review,并把涉及到稳定性的操作内容记录在稳定性流程中。对于常见问题的排查沉淀到一处,后续工具化和演练。 值得注意的是,值班不应该是简单的人力消耗,应该花费时间开发工具平台,包括问题智能排查、订单详情查询,业务日志轨迹、数据变更轨迹查询,并且开发问题自动排查、问题解决方案自动推荐机器人,做到自动答疑、自助答疑,减少工单数量,提高问题排查效率。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。