2021年了,生产环境的问题你怎么解决呢?(下)

简介: 2021年了,生产环境的问题你怎么解决呢?

展示了线程执行的过程,以及最终停在了JNI 上。

"VM Thread" os_prio=0 tid=0x00007fd70813e800 nid=0xdb9 runnable
"GC task thread#0 (ParallelGC)" os_prio=0 tid=0x00007fd70801e800 nid=0xdb5 runnable
"GC task thread#1 (ParallelGC)" os_prio=0 tid=0x00007fd708020800 nid=0xdb6 runnable
"GC task thread#2 (ParallelGC)" os_prio=0 tid=0x00007fd708022000 nid=0xdb7 runnable
"GC task thread#3 (ParallelGC)" os_prio=0 tid=0x00007fd708024000 nid=0xdb8 runnable
"VM Periodic Task Thread" os_prio=0 tid=0x00007fd708194800 nid=0xdc3 waiting on condition
JNI global references: 909

结束时,我们会注意到有几个额外的线程执行后台操作,如垃圾收集(GC)或对象终止:

分析线程Dump使用场景

为了了解我们的应用程序如何工作,我们需要有效地分析生成的快照。在Dump文件中,我们将获得大量关于所有线程的精确数据的信息。但是,我们需要整理日志文件,进行一些过滤和分组,以便从堆栈跟踪中提取有用的提示。一旦我们准备好Dump文件,我们就可以使用不同的工具来分析问题。

同步问题

通过观察线程状态,进行分析。我们需要重点关注线程状态 RUNNABLE 或者 BLOCKED的线程,最终是TIMED_WAITING。这些线程状态能够指导我们分析出,多个线程间的问题

  • 在死锁情况下,运行的多个线程在共享对象上持有一个同步块
  • 在线程争用中,当一个线程被阻塞等待其他线程完成时
运行问题

根据经验,对于异常高的CPU使用率,我们只需要查看RUNNABLE 线程。我们将使用线程Dump文件和其他命令来获取额外的信息。其中一个命令是top-H-ppid,它显示在特定进程中哪些线程正在消耗操作系统资源。我们还需要查看内部JVM线程,例如GC,以防万一。另一方面,当处理性能异常低时,我们将研究BLOCKED 线程。

在这些情况下,一次Dump肯定不足以理解正在发生的事情。为了比较同一线程在不同时间的堆栈,我们需要以相近的间隔进行大量Dump。一方面,一个快照并不总是足以找出问题的根源。另一方面,我们需要避免快照之间的冗余(太多的信息)。

要了解线程随时间的变化,建议的最佳实践是至少进行3次Dump,每10秒一次。另一个有用的技巧是将Dump文件分成小块,以避免加载文件时发生崩溃。

建议

为了有效地寻找问题的根源,我们需要组织堆栈跟踪中的大量信息。因此,我们将考虑以下建议:

  • 在执行问题中,以10秒的间隔捕获多个快照将有助于关注实际问题。如果需要,还建议拆分文件以避免加载崩溃
  • 在创建新线程时使用命名来更好地标识源代码
  • 根据问题的不同,忽略内部JVM处理(例如GC)
  • 当CPU或内存使用异常时,关注长时间运行或阻塞的线程
  • 使用top-H-ppid将线程堆栈与CPU处理关联起来
  • 最重要的是,使用Analyzer工具

手动分析Java线程Dump可能是一项比较困难的事情。对于简单的应用程序,可以识别产生问题的线程。对于复杂的情况,我们需要工具来简化这项任务。

在线工具

推荐几种在线可用的工具。在使用这种软件时,我们需要考虑到安全问题。请记住,我们使用线程工具,不可避免的与第三方共享线程日志。

FastThread

FastThread可能是分析生产环境中线程Dump文件的最佳在线工具。它提供了一个非常好的图形用户界面。它还包括多种功能,如线程的CPU使用率、堆栈长度以及最常用和最复杂的方法:

image.pngFastThread集成了RESTAPI,能来自动分析线程转储。通过一个简单的cURL命令,可以立即发送结果。主要缺点是安全性,因为它将堆栈跟踪存储在云中。

JStack Review

JStack Review是一个在线工具,用于分析Dump。从安全角度来看,它不会存储数据到云,这是使用它的一个主要优势。它提供了所有线程的图形化概述,显示了正在运行的方法,还按状态对它们进行了分组。JStack Review将产生堆栈的线程与其他线程分开,这一点非常重要,例如,内部进程。最后,它还包括同步器和忽略的行:

image.png

Spotify Online Java Thread Dump Analyzer

Spotify在线Java线程Dump分析器是一个用JavaScript脚本编写的在线开源工具。它以纯文本的形式显示结果,将带堆栈和不带堆栈的线程分开。它还显示正在运行的线程中的顶级方法:

image.png

离线应用

我们还可以在本地使用几个独立的应用程序。

JProfiler

JProfiler是市场上最强大的工具,在Java开发人员社区中也很有名。可以使用10天的试用许可证测试功能。JProfiler允许创建配置文件,并将运行的应用程序附加到它们。它包括多种功能,可以当场发现问题,例如CPU和内存使用情况以及数据库分析。它还支持与IDE集成:

image.png

IBM Thread Monitor and Dump Analyzer for Java (TMDA)

IBM TMDA可以用来识别线程争用、死锁和瓶颈。它是免费分发和维护的,但不提供IBM的任何保证或支持:

image.png

Irockel Thread Dump Analyser (TDA)

Irockel TDA是一个独立的开源工具,使用lgplv2.1授权。最后一个版本(v2.4)是在2020年8月发布的,因此它得到了很好的维护。它将线程Dump显示为一个树,还提供一些统计信息以简化搜索:

image.png

Eclipse Memory Analyzer (EMAT)

Eclipse内存分析器是一个快速且功能丰富的Java堆分析器,它可以帮助您发现内存泄漏并减少内存消耗。

image.png

总结

了解线程真正执行的过程,才能更好的把控应用的运行。

少年,加油!!!

目录
相关文章
|
Arthas 监控 Java
Arthas (阿尔萨斯)arthas-boot 方式安装及使用教程
Arthas (阿尔萨斯)arthas-boot 方式安装及使用教程
2859 0
|
6月前
|
缓存 前端开发 定位技术
通义灵码2.5智能体模式实战———集成高德MCP 10分钟生成周边服务地图应用
通义灵码2.5智能体模式结合高德MCP服务,实现快速构建周边服务地图应用。通过自然语言需求输入,智能体自动分解任务并生成完整代码,涵盖前端界面、API集成与数据处理,10分钟内即可完成传统开发需数小时的工作,大幅提升开发效率。
382 0
|
12月前
|
运维 监控 Java
为何内存不够用?微服务改造启动多个Spring Boot的陷阱与解决方案
本文记录并复盘了生产环境中Spring Boot应用内存占用过高的问题及解决过程。系统上线初期运行正常,但随着业务量上升,多个Spring Boot应用共占用了64G内存中的大部分,导致应用假死。通过jps和jmap工具排查发现,原因是运维人员未设置JVM参数,导致默认配置下每个应用占用近12G内存。最终通过调整JVM参数、优化堆内存大小等措施解决了问题。建议在生产环境中合理设置JVM参数,避免资源浪费和性能问题。
874 3
|
机器学习/深度学习 自然语言处理 数据挖掘
【NLP】深度学习的NLP文本分类常用模型
本文详细介绍了几种常用的深度学习文本分类模型,包括FastText、TextCNN、DPCNN、TextRCNN、TextBiLSTM+Attention、HAN和Bert,并提供了相关论文和不同框架下的实现源码链接。同时,还讨论了模型的优缺点、适用场景以及一些优化策略。
1648 1
|
算法
MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手
MATLAB | 插值算法 | 二维interp2插值法 | 附数据和出图代码 | 直接上手
1410 0
|
安全 网络安全 PHP
解决SSL routines:ssl3_get_server_certificate:certificate verify failed
解决SSL routines:ssl3_get_server_certificate:certificate verify failed
1056 0
|
Java jenkins 持续交付
jenkins学习笔记之十七:使用插件及maven上传制品到nexus
jenkins学习笔记之十七:使用插件及maven上传制品到nexus
|
消息中间件 数据安全/隐私保护 RocketMQ
就软件研发问题之RocketMQ ACL 2.0的认证流程的问题如何解决
就软件研发问题之RocketMQ ACL 2.0的认证流程的问题如何解决
195 0
|
Java 应用服务中间件 API
【SpringBoot技术专题】「开发实战系列」Undertow web容器的入门实战及调优方案精讲
【SpringBoot技术专题】「开发实战系列」Undertow web容器的入门实战及调优方案精讲
737 0
|
存储 数据安全/隐私保护 云计算
带你了解文件系统架构的演变:从传统到分布式
带你了解文件系统架构的演变:从传统到分布式
816 0

热门文章

最新文章