故障现象和故障定级:12月02日15:00-17:00期间,用户在AA系统中操作时偶发操作失败,请求报错的情况。内部定级为P4级故障
故障原因:为了提升查询速度,每刻使用了redis缓存服务,该缓存服务器在12月02日15:00-17:00期间出现了几次
服务器出口流量达到上限的情况,达到上限后,超出的部分请求失败了。
处理过程:收到报错反馈后,开发和测试人员排查监控发现了redis的性能瓶颈,随即联系运维人员先尝试对redis规格进行升级,但在购买钉钉云的更高规格的服务器时,提示“该地区缺货”,导致没有在第一时间完成升级,问题持续了一段时间后自动恢复了,我们在当晚采取了另外的策略,将该redis服务器上的部分缓存迁移到了其他服务上来分流压力,通过第二天的观察并未再出现问题,且后来在钉钉云服务器到货后我们也升级了规格,目前负载情况处于健康水平。
故障分析复盘和后续方案:
1.修改了redis报警规则,由原来的连续出现多次使用率85%的才进行告警改为出现一次即告警,这样可以在更早的时间发现问题。