故障原因
早上9:10-9:26 xx-prod出现报错,查看异常日志,发现有redis执行超时的情况,运维重启了三个org服务器,并增加了一个服务器,系统恢复正常,本次故障原因为redis请求超时导致请求出错
处理过程
9点13分查看日志,发现organization-service有running low告警,查看服务器的RT,发现有一台10.xxx.23.1的响应时间较长,排名靠前的请求的响应时间都超过了1s,查看redis诊断报告,发现网络出口流量出现100%的情况,存在读取时间过长的情况,推测是org服务单机连接redis查询超时导致请求响应缓慢引起故障,
9点23分 运维重启了所有org服务器,并加了一台服务器,系统恢复正常
暴露的问题
redis目前的占用空间比较大,部分key没有设置过期时间,某些key存在单个key的值较大的情况,需要对这些key做分析和优化
改进措施
1.定期分析redis中key的使用情况,对于不合理的情况考虑做优化,比如需要设置过期时间,大key是否可以做拆分等操作
2.增加关键服务的arms监控
3.生产环境redis慢请求优化
4.redis批量请求需要增加上限设置,补充规范