3月26号晚上9点上线之后,3月27早上服务假死,无法访问,暂时重启服务,3月29号下午3点服务再次假死,重启服务,3月30日上午8点左右查看服务假死,3月30号下午开始排查
日志查询
日志排查
通过日志分析
锁定了是这个sql导致的查询了3百万条数据,很可能就是这个问题导致服务假死
通过分析sql,知道了是脚手架内嵌的monitor检测的模块,monotor数据库有13个G的数据,
紧急解决方案就是暂时关闭monitor,清空monotor旧数据。
通过关闭日志查询,发现没有再出现过假死
加大内存,修改日志搜索范围,限制数据量,定期清理日志