【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位-阿里云开发者社区

【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位

2017-09-01 3681

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： 今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。

今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。

小哥哥正在Coding，突然收到云监控报警，说他的API调用RT过高，小哥哥的业务主要为线上服务提供数据查询，RT过高可能会导致大量页面数据空白，这还了得，赶紧查。

发现在事发时，有大量的fullgc。导致进程hang住。出现以上一系列的现象

结合nginx日志和应用gc日志，再结合实际的业务场景，定位到在某一次大查询时，在内存hold住太多数据，导致内存爆掉，系统不断gc，进程hang住，进一步导致系统指标和进程指标的现象。

通过jstat -gcutil pid1000查看，发现是perm区的fullgc非常多。通过jmap−permstatpid (要谨慎，不要线上做)，发现google avaiator相关的类很多，想起使用了google的表达式引擎，看代码发现在compile的时候，没有加cache。

加上cache发布后，经过几天的观察，查询前端服务器的内存更加平稳，后台5xx的比例也更低。

【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位