JVM致命错误日志(hs_err_pid.log)分析

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xmt1139057136/article/details/82880179 致命错误出现的时候,JVM 生成了 hs_err_pid.log 这样的文件,其中往往包含了虚拟机崩溃原因的重要信息。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xmt1139057136/article/details/82880179

致命错误出现的时候,JVM 生成了 hs_err_pid<pid>.log 这样的文件,其中往往包含了虚拟机崩溃原因的重要信息。因为经常遇到,在这篇文章里,我挑选了一个,并且逐段分析它包含的内容(文件可以在文章最后下载)。默认情况下文件是创建在工作目录下的(如果没权限创建的话 JVM 会尝试把文件写到/tmp 这样的临时目录下面去),当然,文件格式和路径也可以通过参数指定,比如:

1

java -XX:ErrorFile=/var/log/java/java_error%p.log

这个文件将包括:

  • 触发致命错误的操作异常或者信号;
  • 版本和配置信息;
  • 触发致命异常的线程详细信息和线程栈;
  • 当前运行的线程列表和它们的状态;
  • 堆的总括信息;
  • 加载的本地库;
  • 命令行参数;
  • 环境变量;
  • 操作系统 CPU 的详细信息。

首先,看到的是对问题的概要介绍:

1

#  SIGSEGV (0xb) at pc=0x03568cf4, pid=16819, tid=3073346448

一个非预期的错误被 JRE 检测到,其中:

  • SIGSEGV 是信号名称
  • 0xb 是信号码
  • pc=0x03568cf4 指的是程序计数器的值
  • pid=16819 是进程号
  • tid=3073346448 是线程号

如果你对 JVM 有了解,应该不会对这些东西陌生。

接下来是 JRE 和 JVM 的版本信息:

1

2

3

# JRE version: 6.0_32-b05

 

# Java VM: Java HotSpot(TM) Server VM (20.7-b02 mixed mode linux-x86 )

运行在 mixed 模式下。

然后是问题帧的信息:

1

2

3

# Problematic frame:

 

# C  [libgtk-x11-2.0.so.0+0x19fcf4]  __float128+0x19fcf4

  • C:帧类型为本地帧,帧的类型包括:
    • C:本地 C 帧
    • j:解释的 Java 帧
    • V:虚拟机帧
    • v:虚拟机生成的存根栈帧
    • J:其他帧类型,包括编译后的 Java 帧
  • libgtk-x11-2.0.so.0+0x19fcf4:和程序计数器(pc)表达的含义一样,但是用的是本地 so 库+偏移量的方式。

接下去第一部分是线程信息:

1

Current thread (0x09f30c00):  JavaThread "main" [_thread_in_native, id=16822, stack(0xb72a8000,0xb72f9000)]

当前线程的:

  • 0x09f30c00:指针
  • JavaThread:线程类型,可能的类型包括:
    • JavaThread
    • VMThread
    • CompilerThread
    • GCTaskThread
    • WatcherThread
    • ConcurrentMarkSweepThread
  • main:名字
    • _thread_in_native:线程当前状态,状态枚举包括:
    • _thread_uninitialized:线程还没有创建,它只在内存原因崩溃的时候才出现
    • _thread_new:线程已经被创建,但是还没有启动
    • _thread_in_native:线程正在执行本地代码,一般这种情况很可能是本地代码有问题
    • _thread_in_vm:线程正在执行虚拟机代码
    • _thread_in_Java:线程正在执行解释或者编译后的 Java 代码
    • _thread_blocked:线程处于阻塞状态
    • …_trans:以_trans 结尾,线程正处于要切换到其它状态的中间状态
  • id=16822:线程 ID
  • 0xb72a8000,0xb72f9000:栈区间

1

siginfo:si_signo=SIGSEGV: si_errno=0, si_code=1 (SEGV_MAPERR), si_addr=0x00000010

这部分是导致虚拟机终止的非预期的信号信息,含义前面已经大致提到过了。其中 si_errno 和 si_code 是 Linux 下用来鉴别异常的,Windows 下是一个 ExceptionCode。

1

2

3

EAX=0x00000000, EBX=0x0375dd84, ECX=0x00000000, EDX=0x00000000

ESP=0xb72f0fa0, EBP=0xb72f0fb8, ESI=0x00000000, EDI=0x0a6c1800

EIP=0x03568cf4, EFLAGS=0x00010246, CR2=0x00000010

这是寄存器上下文。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Top of Stack: (sp=0xb72f0fa0)

0xb72f0fa0:   00000000 00402250 0040217f 0375dd84

0xb72f0fb0:   00000000 0a6c1800 b72f0fe8 0356c2c0

0xb72f0fc0:   00000000 0a6c1800 b72f0fe8 003b3e77

0xb72f0fd0:   003e6c8b 0a1a70d0 0a193358 0375dd84

0xb72f0fe0:   0a276418 0a276418 b72f1048 03536c56

0xb72f0ff0:   0acad000 0b3ca978 0000000c 00dd0674

0xb72f1000:   00000003 0a2c7d50 b72f1038 0000330c

0xb72f1010:   ffffffff ffffffff 00000001 00000001

 

Instructions: (pc=0x03568cf4)

0x03568cd4:   89 14 24 89 75 f8 89 d6 89 7d fc 89 c7 e8 7e 1b

0x03568ce4:   ea ff 89 34 24 89 87 d4 02 00 00 e8 30 00 ea ff

0x03568cf4:   8b 40 10 89 3c 24 c7 44 24 08 00 00 00 00 89 87

0x03568d04:   d0 02 00 00 8b 83 88 24 00 00 89 44 24 04 e8 dd

栈顶程序计数器旁的操作码,它们可以被反汇编成系统崩溃前执行的指令。

1

2

3

4

5

6

7

8

9

10

Register to memory mapping:

 

EAX=0x00000000 is an unknown value

EBX=0x0375dd84: <offset 0x394d84> in /usr/lib/libgtk-x11-2.0.so.0 at 0x033c9000

ECX=0x00000000 is an unknown value

EDX=0x00000000 is an unknown value

ESP=0xb72f0fa0 is pointing into the stack for thread: 0x09f30c00

EBP=0xb72f0fb8 is pointing into the stack for thread: 0x09f30c00

ESI=0x00000000 is an unknown value

EDI=0x0a6c1800 is an unknown value

寄存器和内存映射信息。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Stack: [0xb72a8000,0xb72f9000],  sp=0xb72f0fa0,  free space=291k

Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)

C  [libgtk-x11-2.0.so.0+0x19fcf4]  __float128+0x19fcf4

C  [libgtk-x11-2.0.so.0+0x1a32c0]  __float128+0xc0

... ...

C  [libswt-pi-gtk-3738.so+0x33f6a]  Java_org_eclipse_swt_internal_gtk_OS__1Call+0xf

J  org.eclipse.swt.internal.gtk.OS._Call(III)I

J  org.eclipse.swt.internal.gtk.OS.Call(III)I

 

Java frames: (J=compiled Java code, j=interpreted, Vv=VM code)

J  org.eclipse.swt.internal.gtk.OS._Call(III)I

J  org.eclipse.swt.internal.gtk.OS.Call(III)I

j  org.eclipse.swt.widgets.Widget.fixedSizeAllocateProc(II)I+5

j  org.eclipse.swt.widgets.Display.fixedSizeAllocateProc(II)I+17

v  ~StubRoutines::call_stub

... ...

线程栈。包含了地址、栈顶、栈计数器和线程尚未使用的栈信息,由于栈可能非常长,打印的长度有限制,但是至少本地栈和 Java 栈都打印出来了(很多时候本地栈打印不出来,但是 Java 栈一般都能打印出来)。从中可以看到,Eclipse 的虚拟机崩溃了。

1

2

3

4

Java Threads: ( => current thread )

  0x0b4c1000 JavaThread "Worker-247" [_thread_blocked, id=25417, stack(0x741bc000,0x7420d000)]

  0x0a300c00 JavaThread "Worker-246" [_thread_blocked, id=25235, stack(0x7d30c000,0x7d35d000)]

... ...

线程信息。一目了然,不解释了。

1

VM state:not at safepoint (normal execution)

虚拟机状态。包括:

  • not at a safepoint:正常运行状态;
  • at safepoint:所有线程都因为虚拟机等待状态而阻塞,等待一个虚拟机操作完成;
  • synchronizing:一个特殊的虚拟机操作,要求虚拟机内的其它线程保持等待状态。

1

VM Mutex/Monitor currently owned by a thread: None

虚拟机的 Mutex 和 Monitor 目前没有被线程持有。Mutex 是虚拟机内部的锁,而 Monitor 则关联到了 Java 对象。

1

2

3

4

5

6

7

8

9

Heap

 PSYoungGen      total 149056K, used 125317K [0xa9700000, 0xb41a0000, 0xb41a0000)

  eden space 123520K, 95% used [0xa9700000,0xb0ac0de0,0xb0fa0000)

  from space 25536K, 26% used [0xb28b0000,0xb2f50748,0xb41a0000)

  to   space 25600K, 0% used [0xb0fa0000,0xb0fa0000,0xb28a0000)

 PSOldGen        total 261248K, used 239964K [0x941a0000, 0xa40c0000, 0xa9700000)

  object space 261248K, 91% used [0x941a0000,0xa2bf7018,0xa40c0000)

 PSPermGen       total 163328K, used 130819K [0x841a0000, 0x8e120000, 0x941a0000)

  object space 163328K, 80% used [0x841a0000,0x8c160c40,0x8e120000)

堆信息。新生代、老生代、永久代。对 JVM 有了解的人应该都清楚,不解释了。

1

2

Code Cache  [0xb4262000, 0xb5ac2000, 0xb7262000)

 total_blobs=5795 nmethods=5534 adapters=209 free_code_cache=25103616 largest_free_block=38336

代码缓存(Code Cache)。这是一块用于编译和保存本地代码的内存,注意是本地代码,它和 PermGen(永久代)是不一样的,永久带是用来存放 Java 类定义的。

1

2

3

4

5

6

Dynamic libraries:

00101000-00122000 r-xp 00000000 08:01 3483560    /usr/lib/libjpeg.so.62.0.0

00122000-00123000 rwxp 00020000 08:01 3483560    /usr/lib/libjpeg.so.62.0.0

00125000-00130000 r-xp 00000000 08:01 9093202    /lib/libgcc_s-4.1.2-20080825.so.1

00130000-00131000 rwxp 0000a000 08:01 9093202    /lib/libgcc_s-4.1.2-20080825.so.1

... ...

内存映射。这些信息是虚拟机崩溃时的虚拟内存列表区域。在定位崩溃原因的时候,它可以告诉你哪些类库正在被使用,位置在哪里,还有堆栈和守护页信息。就以列表中第一条为例说明:

  • 00101000-00122000:内存区域
  • r-xp:权限,r/w/x/p/s 分别表示读/写/执行/私有/共享
  • 00000000:文件内的偏移量
  • 08:01:文件位置的 majorID 和 minorID
  • 3483560:索引节点号
  • /usr/lib/libjpeg.so.62.0.0:文件位置

每一个 lib 都有两块虚拟内存区域—— 代码和数据,它们的权限不同,代码区域是 r-xp;数据区域是 rwxp。守护页(guard page)由权限为–xp 和 rwxp 的一对组成。

1

2

3

4

5

6

7

8

VM Arguments:

jvm_args: -Dosgi.requiredJavaVersion=1.5 -XX:MaxPermSize=256m -Xms40m -Xmx512m -Dorg.eclipse.swt.browser.XULRunnerPath=''

java_command: /.../eclipse/plugins/org.eclipse.equinox.launcher_1.2.0.v20110502.jar -os linux -ws gtk -arch x86 -showsplash -launcher /.../eclipse/eclipse -name Eclipse ...

Launcher Type: SUN_STANDARD

 

Environment Variables:

PATH=...

DISPLAY=:0.0

虚拟机参数和环境变量。

1

2

3

4

Signal Handlers:

SIGSEGV: [libjvm.so+0x726440], sa_mask[0]=0x7ffbfeff, sa_flags=0x10000004

SIGBUS: [libjvm.so+0x726440], sa_mask[0]=0x7ffbfeff, sa_flags=0x10000004

... ...

信号句柄。对于 Linux 下的信号机制,参阅 wiki 百科, 链接 。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

OS:Red Hat Enterprise Linux Client release 5.4 (Tikanga)

 

uname:Linux 2.6.18-164.el5 #1 SMP Tue Aug 18 15:51:54 EDT 2009 i686

libc:glibc 2.5 NPTL 2.5

rlimit: STACK 10240k, CORE 0k, NPROC 65536, NOFILE 1024, AS infinity

load average:1.78 1.58 1.54

 

/proc/meminfo:

...

 

CPU:total 4 (4 cores per cpu, 1 threads per core) family 6 model 42 stepping 7, cmov, cx8, fxsr, mmx, sse, sse2, sse3, ssse3

 

/proc/cpuinfo:

...

 

Memory: 4k page, physical 3631860k(155144k free), swap 5124724k(5056452k free)

系统信息。

感谢您的关注!可加QQ1群:135430763,QQ2群:454796847,QQ3群:187424846。QQ群进群密码:xttblog,想加微信群的朋友,可以微信搜索:xmtxtt,备注:“xttblog”,添加助理微信拉你进群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作可添加助理微信进行沟通! 

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
21天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
6天前
|
存储 运维 监控
Linux--深入理与解linux文件系统与日志文件分析
深入理解 Linux 文件系统和日志文件分析,对于系统管理员和运维工程师来说至关重要。文件系统管理涉及到文件的组织、存储和检索,而日志文件则记录了系统和应用的运行状态,是排查故障和维护系统的重要依据。通过掌握文件系统和日志文件的管理和分析技能,可以有效提升系统的稳定性和安全性。
24 7
|
9天前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
|
30天前
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
|
2月前
|
监控 算法 Java
jvm-48-java 变更导致压测应用性能下降,如何分析定位原因?
【11月更文挑战第17天】当JVM相关变更导致压测应用性能下降时,可通过检查变更内容(如JVM参数、Java版本、代码变更)、收集性能监控数据(使用JVM监控工具、应用性能监控工具、系统资源监控)、分析垃圾回收情况(GC日志分析、内存泄漏检查)、分析线程和锁(线程状态分析、锁竞争分析)及分析代码执行路径(使用代码性能分析工具、代码审查)等步骤来定位和解决问题。
|
1月前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
2月前
|
存储 SQL 监控
|
2月前
|
运维 监控 安全
|
2月前
|
存储 监控 安全
什么是日志管理,如何进行日志管理?
日志管理是对IT系统生成的日志数据进行收集、存储、分析和处理的实践,对维护系统健康、确保安全及获取运营智能至关重要。本文介绍了日志管理的基本概念、常见挑战、工具的主要功能及选择解决方案的方法,强调了定义管理目标、日志收集与分析、警报和报告、持续改进等关键步骤,以及如何应对数据量大、安全问题、警报疲劳等挑战,最终实现日志数据的有效管理和利用。
136 0
|
2月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
408 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板