开发者社区> 江米> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

【最佳实践】如何使用云监控+日志服务快速完成故障发现和故障定位

简介: 今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。
+关注继续查看

今天分享一篇开发小哥哥如何使用云监控和日志服务快速发现故障定位问题的经历。

事件起因

小哥哥正在Coding,突然收到云监控报警,说他的API调用RT过高,小哥哥的业务主要为线上服务提供数据查询,RT过高可能会导致大量页面数据空白,这还了得,赶紧查。

排查过程

收到报警后查看指标趋势,发现突然RT突然增高。

image

查看单台机器维度的指标,发现30.239这台机器RT延时非常大。

image

  • 具体机器的RT走势图:

    ![image](https://yqfile.alicdn.com/9822ac214802431b42d1e4e76fc17b5da5d45d4e.png)
  • 查看存储在日志服务的原始数据,查看发生问题时的原始日志,发生某一次请求的rt突然变的很大,之后的rt都变的很大。

    ![image](https://yqfile.alicdn.com/756a7443ab1bb4bcde52570428a8e4a67ef7df6b.png)
    
  • 同时也收到了健康检查发出的30.239机器的业务java进程hang,端口telnet监控不通的报警。
    image

于是去主机监控看这台机器到底出了什么问题。

  • cpu,load,内存都在波动,网络有明显变化,流量暴增,tcp连接数先增先减
    image

image

image

  • 再看进程监控:发现机器上的主要的业务进程-java进程,指标变化异常,
    image

登录服务器后,查看GC日志

发现在事发时,有大量的fullgc。导致进程hang住。出现以上一系列的现象

image

排查结果

故障结果

结合nginx日志和应用gc日志,再结合实际的业务场景,定位到在某一次大查询时,在内存hold住太多数据,导致内存爆掉,系统不断gc,进程hang住,进一步导致系统指标和进程指标的现象。

进一步发现和优化

通过jstat -gcutil pid1000查看,发现是perm区的fullgc非常多。通过jmap−permstatpid (要谨慎,不要线上做),发现google avaiator相关的类很多,想起使用了google的表达式引擎,看代码发现在compile的时候,没有加cache。
image

加上cache发布后,经过几天的观察,查询前端服务器的内存更加平稳,后台5xx的比例也更低。

image

我也想用小哥哥在用的监控!

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用云监控实现本地日志监控
本地日志监控是什么?本地日志监控是指使用云监控的Agent在本地对日志进行格式化处理,然后将处理后的格式化数据上报到云监控的指标仓库。而不用上报原始日志。在本地处理日志(而非上报原日志)有几个重要的理由:1,上报原始日志需要消耗大量的云端存储和网络IO,甚至为了查询还需要创建索引,费用不低;2,部分场景下的原始日志涉及到商业数据,不便上报,如订单信息,客户信息等。本地日志被处理成指标数据上报到指标
98 0
SLS告警最佳实践——在通知中引用日志内容
在配置告警通知的时候,通常我们需要知道告警的触发详情。例如Nginx访问错误告警,我们需要知道错误的HTTP Status 分布,错误的机器IP等信息,并且需要将这些信息体现在通知中,以便在接收到告警通知后,能够一目了然地知道发生了什么事情。那么在创建告警规则的时候,我们就需要进行合理的配置,使得告警在触发后,可以将这些信息放在合适的位置发送给通知服务,从而在通知模板里可以被引用到,从而被正确地通知。
84 0
[日志服务][数据加工]e_output使用总结
日志服务数据加工保存配置
710 0
日志服务(SLS)-服务日志全面升级
日志服务服务日志全新升级,支持更多日志类型,更多自定义配置和更少的logstore,多数日志类型完全免费。
2519 0
打通钉钉+WebHook: 日志服务(SLS)告警实践
用一个最最常用的案例(Nginx日志分析)来说明当前使用场景,告警要解决的3个问题:是否有错误;是否有性能问题;是否有流量急跌或暴涨
6311 0
+关注
江米
小程序云产品经理
28
文章
7
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载