一次 OOM 线上排查实录

简介: 老项目线上 OOM 踩坑实录!Druid 连接池 SQL 缓存泄漏 + 业务 SQL 拼接双重叠加导致内存溢出,通过堆 dump 定位问题,优化 Druid 配置 + 批量插入预防 OOM。

大家好,今天分享一次真实的线上 OOM 排查过程,踩坑 Druid 连接池的经典内存泄漏问题,以及完整的解决思路。


一、问题现场:线上内存飙高,OOM 报警

某天,线上老项目突然收到服务器内存使用率持续飙高的报警,紧接着应用直接抛出 OOM 错误,服务崩溃。

紧急拉取了堆 Dump 文件,用 JProfiler 打开后,直接看到了内存占用的元凶:

oom-dump-pro.png

  • 大量 com.alibaba.druid.proxy.jdbc 相关对象堆积
  • 堆中最大的单个对象是一个 char[],大小超过 500MB,存储的正是项目中执行的 SQL 字符串

结合项目业务场景,初步判断是数据库操作相关的内存泄漏,定位方向直接锁定了代码中的 SQL 操作和 Druid 连接池配置。


二、根因定位:双重问题叠加导致的灾难

顺着堆 Dump 里的 SQL 文本,我直接定位到了业务代码,发现这次 OOM 是两个问题叠加导致的。

1. 业务代码:SQL 拼接逻辑导致大对象堆积

这是一个老项目,当年的开发同学已经离职了,代码里存在这样的逻辑:

  • 单条 INSERT 语句中,通过循环拼接 SQL 字符串,一次性插入大量数据
  • 当数据量较大时,拼接后的 SQL 字符串会变得非常大,生成的 char[] 对象直接占用几百 MB 内存
  • 这些大字符串被线程栈引用,短时间内无法被 GC 回收,直接推高了内存水位

2. 框架层面:Druid 1.1.22 版本的经典 SQL 缓存泄漏

堆 Dump 中大量的 Druid 对象,指向了一个更致命的问题:Druid 连接池的 SQL 统计缓存。

  • 项目使用的 Druid 版本是 1.1.22,这个版本存在一个广为人知的问题:SQL 统计功能会无限制缓存所有执行过的 SQL 字符串,无法自动清理
  • 项目中拼接的大量不同 SQL,会被 Druid 全部缓存到 sqlStatMap 中,这些对象会一直持有 SQL 字符串的引用,导致它们无法被 GC 回收
  • 随着服务运行时间增长,缓存的 SQL 越来越多,内存只会涨不会跌,最终撑满堆内存,触发 OOM

三、解决方案:两步走彻底根治问题

针对这两个问题,我们采用了业务+框架双管齐下的修复方案,从根源解决内存泄漏。

第一步:优化 Druid 配置,掐断缓存泄漏

直接修改项目的 Druid 配置,关闭无限制的 SQL 统计,同时限制缓存大小,避免内存无限增长。

方案 A:彻底关闭 SQL 统计(推荐,零泄漏风险)

spring:
  datasource:
    druid:
      filter:
        stat:
          enabled: false # 关闭导致内存泄漏的SQL统计
      web-stat-filter:
        enabled: false # 关闭Web统计,减少额外内存占用

方案 B:保留监控,限制缓存大小(折中方案)

如果业务必须保留 SQL 监控,可以通过配置限制缓存的 SQL 数量,避免无限增长:

spring:
  datasource:
    druid:
      filter:
        stat:
          enabled: true
      max-stat-count: 200 # 限制最多缓存200条SQL,超出自动淘汰

第二步:重构业务代码,替换 SQL 拼接为批量插入

修改原有的 SQL 拼接逻辑,改为标准的批量插入方式,既避免了超大 SQL 字符串的生成,也提升了数据库写入性能。

改造前(问题代码)

// 循环拼接SQL,生成超大字符串
StringBuilder sql = new StringBuilder("INSERT INTO t_invoice (col1, col2) VALUES ");
for (Invoice invoice : list) {
   
    sql.append("(?, ?),");
}
jdbcTemplate.update(sql.toString(), params);

改造后(批量插入)

// 使用JdbcTemplate批量插入,避免生成超大SQL字符串
String sql = "INSERT INTO t_invoice (col1, col2) VALUES (?, ?)";
jdbcTemplate.batchUpdate(sql, new BatchPreparedStatementSetter() {
   
    @Override
    public void setValues(PreparedStatement ps, int i) throws SQLException {
   
        ps.setString(1, list.get(i).getCol1());
        ps.setString(2, list.get(i).getCol2());
    }

    @Override
    public int getBatchSize() {
   
        return list.size();
    }
});

四、效果验证与后续优化

改造完成后,我们重新上线服务并进行了压测验证:

  1. 内存曲线恢复平稳,不再出现持续飙高的情况
  2. 堆 Dump 中 Druid 相关对象和大 char[] 基本消失
  3. 数据库写入性能也有明显提升,单批次插入耗时降低了 40%

额外优化建议

  • 对于老项目,建议升级 Druid 到最新稳定版(如 1.2.20+),修复了大量已知的内存泄漏问题
  • 批量插入时,建议设置合理的批次大小(如每批 100-500 条),避免单次操作过大导致数据库压力
  • 上线前务必进行压测,通过 JProfiler 或 Arthas 观察内存变化,提前发现潜在问题

五、踩坑总结

这次 OOM 排查给了我两个深刻的教训:

  1. 老项目的依赖版本一定要关注:Druid 1.1.22 这个版本的 SQL 缓存泄漏问题非常普遍,很多线上 OOM 都源于此,升级或关闭统计是最直接的解决方式。
  2. 业务代码的 SQL 拼接是隐形杀手:不仅容易导致 SQL 注入,还会生成超大对象,配合框架的缓存机制,很容易引发内存泄漏。批量插入是更安全、更高效的替代方案。

希望这次分享能帮到遇到同样问题的朋友,如果你也遇到了 Druid 相关的内存问题,欢迎在评论区交流讨论~

目录
相关文章
|
16天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23516 12
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
3天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
1062 7
|
4天前
|
人工智能 BI 持续交付
Claude Code 深度适配 DeepSeek V4-Pro 实测:全场景通关与真实体验报告
在 AI 编程工具日趋主流的今天,Claude Code 凭借强大的任务执行、工具调用与工程化能力,成为开发者与自动化运维的核心效率工具。但随着原生模型账号稳定性问题频发,寻找一套兼容、稳定、能力在线的替代方案变得尤为重要。DeepSeek V4-Pro 作为新一代高性能大模型,提供了完整兼容 Claude 协议的 API 接口,只需简单配置即可无缝驱动 Claude Code,且在任务执行、工具调用、复杂流程处理上表现极为稳定。
1319 3
|
9天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
2432 4
|
2天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
844 0
|
19天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5976 22
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
21天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
7199 18

热门文章

最新文章