一、故障具体现象
上午8点49分到9点55分钉钉版生产环境出现系统无法登录的情况
二、故障分析过程
查看会话管理,发现存在大量异常会话
查看异常会话所在服务器的资源使用情况,并未发现明显异常
查看8点30分到8点50分之间的慢sql执行情况,未发现有明显的执行时间过长的慢sql
查看ice线程使用情况发现在8点30分到8点50分之间expense服务存在较多线程池使用量超过告警水位的情况
根据ice线程的告警信息,得出在异常发生之前出现了大量ice接口调用,在一段时间内这些调用没有返回,导致ice线程无法及时释放,导致出现请求缓慢的情况
三、故障原因
经过以上分析,本次故障很可能是短时间内expense服务出现了大量ice接口调用,ice客户端线程占用过多引起等待,从而出现请求缓慢的情况
四、解决方案
进行数据库主备切换,重新部署expense服务,增加expense服务ice最大线程数设置,增加expense服务实例数