线上服务假死排查

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 线上服务假死排查

3月26号晚上9点上线之后,3月27早上服务假死,无法访问,暂时重启服务,3月29号下午3点服务再次假死,重启服务,3月30日上午8点左右查看服务假死,3月30号下午开始排查

日志查询

日志排查

通过日志分析

锁定了是这个sql导致的查询了3百万条数据,很可能就是这个问题导致服务假死

通过分析sql,知道了是脚手架内嵌的monitor检测的模块,monotor数据库有13个G的数据,

紧急解决方案就是暂时关闭monitor,清空monotor旧数据。

通过关闭日志查询,发现没有再出现过假死

加大内存,修改日志搜索范围,限制数据量,定期清理日志

设置服务自启动


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
打赏
0
0
0
0
90
分享
相关文章
线上问题,如何处理?
线上问题,如何处理?
205 37
【线上问题排查】死锁和僵尸进程排查
【线上问题排查】死锁和僵尸进程排查
246 1
记一次应用优雅下线排查经历
本文记录了一次线上应用发版时出现500错误的排查过程。问题出现在滚动更新过程中,部分请求调度到了正在下线的Pod,导致500错误。通过增加PreStop Hook、调整TerminationGracePeriodSeconds以及配置Java应用的优雅下线,最终解决了问题。此外,还发现SLB的长连接问题,并通过配置SLB优雅下线彻底解决了请求失败的情况。
线上OOM排查
本文介绍了JDK工具的使用方法及其应用场景。首先详细说明了`jps`、`jstack`、`jstat`和`jmap`等工具的基本用法及参数含义,帮助开发者实时监控Java进程的状态,诊断线程问题及内存使用情况。接着介绍了`jvisualvm.exe`和`MemoryAnalyzer.exe`两款内存诊断工具,展示了如何通过这些工具进行内存分析。最后,文章提供了在线上OOM故障排查的具体步骤,并给出了解决方案示例,以便开发者更好地理解和解决实际问题。
105 2
线上OOM排查
一次线上服务CPU100%的排查过程
文章记录了一次线上服务CPU使用率达到100%的排查过程,通过使用top命令和jstack工具确定了导致高CPU使用的线程,并分析了Disruptor组件的不当配置是问题原因,通过修改组件的策略成功解决了问题。
152 0
一次纯线上接口异常的排查过程
一次纯线上接口异常的排查过程
165 0
|
9月前
|
如何排查线上问题的?
在当今的互联网时代,线上问题对企业的业务连续性和用户体验产生的影响越来越大。无论是网站崩溃、应用性能下降,还是服务中断,这些问题都可能对企业的声誉和用户满意度造成严重影响。因此,快速、准确地排查并解决线上问题变得至关重要。本文将介绍一些高效的线上问题排查方法,帮助您在面对线上问题时,迅速定位并解决问题。我们将在接下来的内容中详细讨论如何利用日志分析、监控系统、代码审查等手段,以及如何制定有效的应急预案。通过这些策略的实施,您将能够提高线上问题的解决速度,减少对业务的影响,并提高用户满意度。
197 2
线上排查堆栈
线上排查堆栈
76 1
【线上问题】服务CPU彪高排查
后端程序员出去面试经常会有面试官喜欢问你有没有排查过线上问题,遇到后怎么排查的。
566 0
【线上问题】服务CPU彪高排查