开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC里job从保存点恢复或者cancel后再提交，元空间一直涨最后oom这个问题怎么办

Flink CDC里job从保存点恢复或者cancel后再提交，元空间一直涨最后oom这个问题如何解决呢？

展开

收起

小小鹿鹿鹿 2024-05-15 08:30:59 133 版权

阿里云 AI 助理回答

在Flink CDC作业中，如果从保存点恢复或取消后再提交时出现元空间（Metaspace）持续增长并最终导致OOM（OutOfMemoryError）的问题，通常与类加载器泄漏或依赖冲突有关。以下是详细的解决方案和操作步骤：

1. 问题原因分析

元空间主要用于存储类的元数据信息。如果元空间持续增长并最终耗尽内存，可能的原因包括： - 类加载器泄漏：每次作业重启时，新的类加载器被创建，但旧的类加载器未被正确释放。 - 依赖冲突：作业JAR包中包含重复或冲突的依赖，导致类加载器无法正确卸载。 - Connector或插件问题：某些Connector（如MySQL CDC）可能存在类加载器管理不当的问题。

2. 解决方案

2.1 检查并优化依赖

排查依赖冲突
使用以下命令检查作业JAR包中的依赖关系，确保没有重复或冲突的依赖：

mvn dependency:tree

如果发现冲突依赖，可以通过exclusions排除不必要的依赖。例如：

<dependency>
  <groupId>com.ververica</groupId>
  <artifactId>flink-connector-mysql-cdc</artifactId>
  <version>${cdc.version}</version>
  <exclusions>
      <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
      </exclusion>
  </exclusions>
</dependency>

避免打包不必要的依赖
确保基本配置、Flink核心库和Hadoop相关依赖的scope设置为provided，以避免将这些依赖打入作业JAR包中。例如：

<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-streaming-java_2.11</artifactId>
  <version>${flink.version}</version>
  <scope>provided</scope>
</dependency>

2.2 调整JVM元空间参数

增加元空间的最大大小限制，避免因默认值过小导致OOM。在Flink的flink-conf.yaml中添加以下配置：
```
taskmanager.memory.jvm-metaspace.size: 512m
taskmanager.memory.jvm-metaspace.max-size: 1g
```
根据实际作业需求调整上述参数值。

2.3 升级Flink版本或Connector

升级Flink版本
如果使用的是较旧版本的Flink，建议升级到最新稳定版本（如Flink 1.17及以上），因为新版本修复了多个与类加载器和元空间相关的缺陷。
升级CDC Connector
确保使用的MySQL CDC Connector是最新版本，因为旧版本可能存在类加载器管理不当的问题。

2.4 避免频繁重启作业

优化重启策略
配置合理的重启策略，避免作业频繁重启导致类加载器泄漏。例如，设置最多尝试重启两次，每次重启前等待10秒：
```
restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 2
restart-strategy.fixed-delay.delay: 10s
```

2.5 检查日志和调试

开启Debug日志
在log4j.properties中启用Debug日志，检查是否存在类加载器泄漏或依赖冲突的异常信息：
```
logger.akka.name = akka
logger.akka.level = DEBUG
```
如果发现类似InvocationTargetException或NoResourceAvailableException的错误，需进一步排查依赖冲突或资源分配问题。