值班机制建设该如何让建设？_问答-阿里云开发者社区

值班，既能让大家熟悉业务，又能让SRE不那么劳累，因此，值班人员一方面要响应报警，另一方面要响应工单。SRE要做的事情，是安排好值班表和值班机制，明确值班人员的职责。一般来说，可以如下建设： • 事前： • 值班人员必须参与故障演练（包括故障止血方法）以及熟练使用各种故障排查工具。 • 值班人员需要明确值班的范围，包括预警群、工单群、线上问题反馈群、答疑群等； • 值班人员在值班周期内，应该减少业务工作安排； • 值班人员的值班周期不宜过长或者过短，以一周为宜； • SRE应该尽可能的多值班，只有对业务熟悉的人，才能更加敏锐的发现系统的问题； • 新进入团队的同学，应该先值几个月的轮班，通过值班熟悉业务，是最快的方式； • 事中：不管是工单问题还是报警，如果短时间无法定位原因的情况，立即把相关人员拉入电话会议，如果遇到卡点，需要把接力棒明确交接给下一位，事后再回顾卡点的原因。对于会影响上下游的问题（事故），需要立刻通知上下游，可能引起故障的，需要GOC报备。 • 值班人员自己发现问题后，应该第一时间在群里反馈说处理中，签到通知其他人已经在处理 • 关闭当前报警的通知（关闭方法集中沉淀到常见问题处理手册），防止电话打爆掩盖其他更重要的报警，事后再重开报警（由当前值班人员保证） • 事后：值班人员和SRE一起组织问题Review，并把涉及到稳定性的操作内容记录在稳定性流程中。对于常见问题的排查沉淀到一处，后续工具化和演练。值得注意的是，值班不应该是简单的人力消耗，应该花费时间开发工具平台，包括问题智能排查、订单详情查询，业务日志轨迹、数据变更轨迹查询，并且开发问题自动排查、问题解决方案自动推荐机器人，做到自动答疑、自助答疑，减少工单数量，提高问题排查效率。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

值班机制建设该如何让建设？