升级开始时间:2017-5-4晚19:00
升级结束时间:2017-5-4晚22:00
2017-5-5-周五:
出现问题:
大部分分公司反馈无法接受通赔案件,一小部分分公司反馈能收到案件,但是无查勘信息。
实际原因:在做升级操作之前,考虑不周导致,只考虑了分公司是否需要做操作,除试点分公司需要做部分操作之外,全部操作均由总公司操作。
试点分公司所需执行操作:
1、将接入项目包中的配置文件参数(核心对应的F5地址)修改并重启服务
2、将分公司理赔端(自赔)相关参数修改为生产核心地址,然后重启服务
总公司所需操作:
1、停止移动查勘全部服务
2、备份5001版本对应项目包,APK,CSV文件
3、上传5002版本对应项目包,APK,CSV文件
4、执行研发支持提供的修改强制升级5002版本APK对应sql语句
5、启动单受管节点,查看运行状态,经研发确认无误之后,启动所有集群受管节点
遗漏未执行操作:需要在数据库中对每个分公司用户插入通赔系统的F5地址
因为遗漏了这步操作, 导致了通赔无法下发案件到各分公司。
事故反思及如何完善:
事故反思:导致该事故产生的原因为考虑不周所致,核心因素是运维人员对整体流程有遗漏,运维仍然有待加强。
以后该如何完善:
1、有重大升级变更时,编写升级时间轴,类似下图:
2、编写runbook(运行手册,也即操作步骤),也即在升级过程中,属于我们操作的部分,我们该如何去做,要非常有条理性逻辑学地描述我们的操作步骤,建议按照时间顺序编写。
3、将时间轴以及runbook一并让项目组同事及领导过目并提意见。
本文转自1清风揽月1 51CTO博客,原文链接:http://blog.51cto.com/watchmen/1922835,如需转载请自行联系原作者