你们要的线上GC问题案例来啦

简介: 最近写了几篇关于GC的文章,主要是因为线上有一些关于GC的问题,所以想顺便总结一波,梳理一下GC的一些知识点和排查思路。

先推荐一篇好文


最近写了几篇关于GC的文章,主要是因为线上有一些关于GC的问题,所以想顺便总结一波,梳理一下GC的一些知识点和排查思路。


之前有读者留言说能不能写一篇实战经验方面的,这不就来了吗~

我们项目上用到的主要还是CMS + ParNew的组合。所以重点看的资料也是这方面的。

在学习的过程中,也拜读了美团技术团队的这篇文章《Java中9种常见的CMS GC问题分析与解决》。这篇文章质量非常高,从理论知识,源码分析,到常见的GC问题案例,囊括了分析路径、根因、调优策略等等内容,非常详尽且全面,尤其是最后部分的处理流程SOP和根因鱼骨图,非常nice。墙裂推荐,值得一读!!!

知道大家喜欢现成的,所以我手动copy了这两张图过来,有需要的自取:

网络异常,图片无法展示
|

网络异常,图片无法展示
|


GC问题案例


我遇到的案例可能没有上面文章作者那么丰富,但也是真实遇到的几个案例,所以借这篇文章分享出来,大家可以参考参考,避免踩类似的坑。

案例1 Young GC频繁

之前有个任务会频繁地重复调用一个接口。所以用guava cache做了一个简单的内存缓存。结果上线后发现经常收到Young GC频繁的告警,时间跟这个任务的启动时间也比较吻合。

通过监控看到的GC图大概是这样:

网络异常,图片无法展示
|

可以看到,Young GC的次数会在某一个时间点飙升。同时伴随着Old区域内存快速升高,最后会触发一次Full GC。

根据这个情况,可以肯定的是由于本次代码改动引起的。通过Heap Dump分析后发现,占用内存较大的是一个guava cache的Map对象。

查找代码发现,使用guava cache的时候,没有设置最大缓存数量和弱引用,而是设置了一个几分钟的过期时间。而这个任务的量又比较大,到线上后很快就缓存了大量的对象,导致频繁触发Young GC,但又由于有引用GC不掉(这个从Survivor区的内存大小图像可以推测),所以慢慢代数比较多的对象就晋升到了老年代,后面老年代内存到达一定阈值引发Full GC。

后面通过设置最大缓存数量解决了这个问题。又积累了一个宝贵的经验,完美!

网络异常,图片无法展示
|

案例2 Young GC和Old GC都频繁

在线上灰度环境中发现收到Young GC和Old GC频繁的告警。监控看到的GC图大概长这样:

网络异常,图片无法展示
|

根据GC图大概可以看出来,Young GC和Old GC都非常频繁,且每次都能回收走大量的对象。那可以简单地推测:确实是产生了大量的对象,且极有可能有一部分大对象。小对象引发的Young GC频繁,而大对象引发了Old GC频繁。

排查下来也是一段代码引起的。对于一个查询和排序分页的SQL,同时这个SQL需要join多张表,在分库分表下,直接调用SQL性能很差,甚至超时。于是想了个比较low的办法:查单表,把所有数据查出来,在内存排序分页。用了一个List来保存数据,而有些数据量大,造成了这个现象。用Heap Dump分析,也印证了这个猜测,List类型的对象占用了大量的空间。

案例3 接口线程池满和Full GC

这是一个报接口线程池满的问题。但每次都会在同一时间Full GC。监控图大概长这样:

网络异常,图片无法展示
|

从时间上来看,先是Java线程数量飙升,然后触发Full GC。后面重启后,Java线程数量恢复正常水位。

这里涉及到一个冷知识:一个Java线程默认会占用多少内存?

这个参数可以控制: -XX:ThreadStackSize。在64 位的Linux下, 默认是1 MB(这个说法也不全对,还是取决于栈深度)。Java 11对这个有一个优化,可以减少内存占用。详情可以参考这篇文章:dzone.com/articles/ho…

排查下来根因是这个应用还是使用的Log4j 1,而Log4j 1有性能问题,在高并发下,下面这段代码的同步块可能会引起大量线程阻塞:

void callAppenders(LoggingEvent event) {
    int writes = 0;
    for(Category c = this; c != null; c=c.parent) {
        // Protected against simultaneous call to addAppender, removeAppender,...
        synchronized(c) {
            if(c.aai != null) {
                writes += c.aai.appendLoopOnAppenders(event);
            }
            if(!c.additive) {
                break;
            }
        }
    }
    if(writes == 0) {
        repository.emitNoAppenderWarning(this);
    }
}
复制代码

解决办法就是减少日志打印,升级日志框架到Log4j 2或者Logback。

案例4 应用启动时Full GC频繁

这个是较早的一个案例了,GC图已经找不到了。

但引发Full GC频繁的大概就这几种可能性:

  • 调用System.gc()
  • Old区空间不足
  • 永久代/元空间满

根据代码和GC图排除了前面两种可能性,那就是元空间满了。在Java 8中,XX:MaxMetaspaceSize是没有上限的,最大容量与机器的内存有关;但是XX:MetaspaceSize是有一个默认值的:21M。而如果应用需要进元空间的对象较多(比如有大量代码),就会频繁触发Full GC。解决办法是可以通过JVM参数指定元空间大小:-XX:MetaspaceSize=128M


总结


可以看到上面的大多数案例都是代码改动或者应用框架引起的。一般公司内都会有默认的一套JVM参数,真正需要JVM参数调优解决问题的case其实是比较少的。

而且有时候GC问题可能并不是问题的根源,有可能是其它问题引发的GC问题,在实际排查的时候要根据日志及时间线去判断。

至于怎么去判断是否“频繁”和“耗时长”?虽然有一些公式计算,但我觉得只要不影响现有的业务,那就是可以接受的。而如果某个应用的GC表现明显不同于以往的平均水平,或者其它相似应用的水平,那就有理由怀疑是不是存在GC问题了。

很多时候GC问题不充分的压测是测试不出来的,而压测成本又比较大。经常会在线上灰度发布中观察到,所以需要在灰度发布的时候密切观察系统的监控和告警。如果有条件,可以上红蓝部署,降低风险。

GC问题还是蛮复杂的,需要大量的经验和理论知识。遇到之后可以总结分析一下根因,平时也可以看看其他人的博客,吸取经验,这样就能不断完善自己的知识体系。

目录
相关文章
|
5月前
|
人工智能 弹性计算 数据可视化
2026年小白零基础OpenClaw(Clawdbot)部署接入企业微信喂饭级教程
2026年,OpenClaw(原Clawdbot,曾用名Moltbot)凭借“开源可控、插件化拓展、自然语言驱动”的核心优势,已成为企业数字化办公的核心AI工具,尤其在企业微信生态中,能够实现消息自动回复、办公流程自动化、数据汇总统计、多场景协作等功能,被广大企业用户称为“高效AI办公助手”。相较于传统办公模式,OpenClaw可大幅减少人工重复操作,将员工从繁琐的事务性工作中解放出来,专注于核心业务,尤其适合中小企业、创业团队及零基础用户快速落地AI办公场景。
1835 1
若依框架 --- 修改默认跳转页面
若依框架 --- 修改默认跳转页面
1595 0
|
数据可视化 数据挖掘 Python
【数据分析与可视化】Matplotlib中动态rc参数设置详解与实战(图文解释 附源码)
【数据分析与可视化】Matplotlib中动态rc参数设置详解与实战(图文解释 附源码)
1419 0
|
12月前
|
存储 缓存 搜索推荐
转转千万级用户量消息推送系统的架构演进之路
本文将从0开始讲讲转转千万级用户量消息推送系统的架构演进和迭代过程,以及遇到的常见问题的解法,希望能带给你启发。
600 0
|
关系型数据库 MySQL Linux
MySQL8官方YUM仓库使用指南
MySQL 8 是广受欢迎的开源关系数据库管理系统,引入了诸多新特性和性能提升。本文介绍如何在 Linux 上通过 MySQL 官方 YUM 仓库安装和管理 MySQL 8。首先配置 YUM 仓库并安装 MySQL,启动服务后获取临时密码并登录。接着创建数据库与用户,使用 SQL 命令创建表格、插入及查询数据。此方法简便高效,适合快速上手 MySQL 8 的基本操作。
1211 13
|
Java 应用服务中间件 开发者
微服务——SpringBoot使用归纳——Spring Boot项目工程结构
本文介绍了 Spring Boot 项目的工程结构及其模块功能。项目包含三个主要模块:`src/main/java` 用于编写业务程序;`src/main/resources` 存放静态文件和配置文件;`src/test/java` 用于编写测试程序。默认创建的启动类 `Course01Application` 带有 `@SpringBootApplication` 注解,通过运行其中的 main 方法即可启动项目。Spring Boot 内嵌 Tomcat,无需手动配置
1107 0
微服务——SpringBoot使用归纳——Spring Boot项目工程结构
|
Java 微服务 Spring
SpringCloud gateway自定义请求的 httpClient
SpringCloud gateway自定义请求的 httpClient
878 3
|
监控 安全 关系型数据库
稳定性之故障应急处理流程
尽管可以通过稳定性体系建设,来避免出现生产系统故障。但是仍然无法彻底避免一点风险都不会产生,当稳定性风险产生后,怎么快速协调组织,缩短故障时长,科学的流程呢?
稳定性之故障应急处理流程
|
缓存 安全 网络协议
Envoy中Wasm Filter相关概念解释
本文旨在介绍Envoy中Wasm Filter相关概念,让用户对相关架构有更加深入的了解,可以快速开发出自己的Wasm插件。 阿里云服务网格(Service Mesh,简称ASM)提供一个全托管式的服务网格平台,兼容社区Istio开源服务网格,用于简化服务的治理,包括服务调用之间的流量路由与拆分管理、服务间通信的认证安全以及网格可观测性能力,从而极大地减轻开发与运维的工作负担。 ASM支持Wasm插件。
1288 3

热门文章

最新文章