稳定性专题 | StackOverFlowError 常见原因及解决方法

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 导读『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的方式来打造稳定性领域的知识库,欢迎您的加入。

导读

『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的方式来打造稳定性领域的知识库,欢迎您的加入。

@GitHub :https://github.com/StabilityMan/StabilityGuide
@钉钉群:
lADPDgQ9q5oMlE3NAdvNAWg_360_475_jpg_620x10000q90g

每一个 JVM 线程都拥有一个私有的 JVM 线程栈,用于存放当前线程的 JVM 栈帧(包括被调用函数的参数、局部变量和返回地址等)。如果某个线程的线程栈空间被耗尽,没有足够资源分配给新创建的栈帧,就会抛出 java.lang.StackOverflowError 错误。

线程栈是如何运行的?

首先给出一个简单的程序调用代码示例,如下所示:

public class SimpleExample {
      public static void main(String args[]) {
            a();
      }
      public static void a() {
            int x = 0;
            b();
      }
      public static void b() {
            Car y = new Car();
            c();
      }
      public static void c() {
            float z = 0f;
      }
}

当 main() 方法被调用后,执行线程按照代码执行顺序,将它正在执行的方法、基本数据类型、对象指针和返回值包装在栈帧中,逐一压入其私有的调用栈,整体执行过程如下图所示:

首先,程序启动后,main() 方法入栈。

然后,a() 方法入栈,变量 x 被声明为 int 类型,初始化赋值为 0。注意,无论是 x 还是 0 都被包含在栈帧中。

接着,b() 方法入栈,创建了一个 Car 对象,并被赋给变量 y。请注意,实际的 Car 对象是在 Java 堆内存中创建的,而不是线程栈中,只有 Car 对象的引用以及变量 y 被包含在栈帧里。

最后,c() 方法入栈,变量 z 被声明为 float 类型,初始化赋值为 0f。同理,z 还是 0f 都被包含在栈帧里。

当方法执行完成后,所有的线程栈帧将按照后进先出的顺序逐一出栈,直至栈空为止。

StackOverFlowError 是如何产生的?

如上所述,JVM 线程栈存储了方法的执行过程、基本数据类型、局部变量、对象指针和返回值等信息,这些都需要消耗内存。一旦线程栈的大小增长超过了允许的内存限制,就会抛出 java.lang.StackOverflowError 错误。

下面这段代码通过无限递归调用最终引发了 java.lang.StackOverflowError 错误。

public class StackOverflowErrorExample {
      public static void main(String args[]) {
            a();
      }
      public static void a() {
            a();
      }
}

在这种情况下,a() 方法将无限入栈,直至栈溢出,耗尽线程栈空间,如下图所示。

Exception in thread "main" java.lang.StackOverflowError
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)
    at StackOverflowErrorExample.a(StackOverflowErrorExample.java:10)

如何解决 StackOverFlowError?

引发 StackOverFlowError 的常见原因有以下几种:

  • 无限递归循环调用(最常见)。
  • 执行了大量方法,导致线程栈空间耗尽。
  • 方法内声明了海量的局部变量。
  • native 代码有栈上分配的逻辑,并且要求的内存还不小,比如 java.net.SocketInputStream.read0 会在栈上要求分配一个 64KB 的缓存(64位 Linux)。

除了程序抛出 StackOverflowError 错误以外,还有两种定位栈溢出的方法:

  • 进程突然消失,但是留下了 crash 日志,可以检查 crash 日志里当前线程的 stack 范围,以及 RSP 寄存器的值。如果 RSP 寄存器的值超出这个 stack 范围,那就说明是栈溢出了。
  • 如果没有 crash 日志,那只能通过 coredump 进行分析。在进程运行前,先执行 ulimit -c unlimited,当进程挂掉之后,会产生一个 core.[pid] 的文件,然后再通过 jstack $JAVA_HOME/bin/java core.[pid] 来看输出的栈。如果正常输出了,那就可以看是否存在很长的调用栈的线程,当然还有可能没有正常输出的,因为 jstack 的这条从 core 文件抓栈的命令其实是基于 Serviceability Agent 实现的,而 SA 在某些版本里有 Bug。

常见的解决方法包括以下几种:

  • 修复引发无限递归调用的异常代码, 通过程序抛出的异常堆栈,找出不断重复的代码行,按图索骥,修复无限递归 Bug。
  • 排查是否存在类之间的循环依赖。
  • 排查是否存在在一个类中对当前类进行实例化,并作为该类的实例变量。
  • 通过 JVM 启动参数 -Xss 增加线程栈内存空间, 某些正常使用场景需要执行大量方法或包含大量局部变量,这时可以适当地提高线程栈空间限制,例如通过配置 -Xss2m 将线程栈空间调整为 2 mb。

线程栈的默认大小依赖于操作系统、JVM 版本和供应商,常见的默认配置如下表所示:

JVM 版本 线程栈默认大小
Sparc 32-bit JVM 512 kb
Sparc 64-bit JVM 1024 kb
x86 Solaris/Linux 32-bit JVM 320 kb
x86 Solaris/Linux 64-bit JVM 1024 kb
Windows 32-bit JVM 320 kb
Windows 64-bit JVM 1024 kb

提示: 实际生产系统中,可以对程序日志中的 StackOverFlowError 配置关键字告警,一经发现,立即处理。

推荐工具&产品

ARMS —— 阿里云 APM 产品,支持 StackOverFlowError 异常关键字告警

参考文章

作者信息:夏明,GitHub ID @StabilityMan,花名涯海,阿里云 ARMS & EagleEye 技术专家,2016 年加入阿里巴巴,一直从事链路追踪和 APM 监控诊断领域的相关工作。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
存储 监控 Java
三万字长文:JVM内存问题排查Cookbook
本文主要系统性地整理了排查思路,为大家遇到问题时提供全面的排查流程,不至于漏掉某些可能性误入歧途浪费时间。
|
Arthas 监控 应用服务中间件
HSF Serialize response error on provider side
项目组的应用在HSF Consumer调用HSF Provider时遇到异常。问题源于HSF Provider端序列化响应数据时发生的错误,具体为`com.taobao.hsf.com.caucho.hessian.io.ContextSerializerFactory.getCustomSerializer`方法中的`Class.forName`调用抛出了`NullPointerException`。通过Arthas工具的`watch`命令监控并分析异常堆栈,发现异常发生在尝试获取自定义序列化器的过程中。
784 1
|
算法 JavaScript 前端开发
84坐标系、02坐标系、百度坐标之间相互转换算法
最近有同学反馈之前的坐标系转换有问题,对之前的工具类进行了修正。 一、地图坐标转换java工具类 包含84坐标系、02坐标系、百度地图、高德地图、腾讯地图坐标之间相互转换的算法 wgs84ToGcj02:将 WGS84 坐标系下的经纬度转换为 GCJ02 坐标系下的经纬度。 gcj02ToWgs84:将 GCJ02 坐标系下的经纬度转换为 WGS84 坐标系下的经纬度。 gcj02ToBd09:将 GCJ02 坐标系下的经纬度转换为 BD09 坐标系下的经纬度。 bd09ToGcj02:将 BD09 坐标系下的经纬度转换为 GCJ02 坐标系下的经纬度。
1823 0
84坐标系、02坐标系、百度坐标之间相互转换算法
|
数据采集 供应链 安全
利用大数据优化业务流程:策略与实践
【5月更文挑战第11天】本文探讨了利用大数据优化业务流程的策略与实践,包括明确业务目标、构建大数据平台、数据采集整合、分析挖掘及流程优化。通过实例展示了电商和制造企业如何利用大数据改进库存管理和生产流程,提高效率与客户满意度。随着大数据技术进步,其在业务流程优化中的应用将更加广泛和深入,企业需积极采纳以适应市场和客户需求。
|
存储 算法 安全
Java面试题:给定一个可能产生内存泄漏的场景,如何诊断并解决?实现一个生产者-消费者模型,使用适当的同步机制与并发工具类,Java并发工具包与框架:性能与调优
Java面试题:给定一个可能产生内存泄漏的场景,如何诊断并解决?实现一个生产者-消费者模型,使用适当的同步机制与并发工具类,Java并发工具包与框架:性能与调优
194 0
|
存储 消息中间件 数据库
RocketMQ平台的消息灰度方案(2)
RocketMQ平台的消息灰度方案
828 0
RocketMQ平台的消息灰度方案(2)
|
JSON API 开发工具
postman介绍、安装、使用、功能特点、注意事项
postman介绍、安装、使用、功能特点、注意事项
1481 0
|
运维 监控
dmesg 时间误差现象
dmesg 时间误差现象
|
存储 消息中间件 算法
RocketMQ平台的消息灰度方案(1)
RocketMQ平台的消息灰度方案
795 0
|
SQL 关系型数据库 MySQL
2023年MySQL实战核心技术场景面试篇-持续更新
2023年MySQL实战核心技术场景面试篇-持续更新
522 0