Flink CDC 里根据内容执行报错是为什么？

Flink CDC 里Calcite数据管理实战这本书中，有个LOAD案例，根据内容我执行的时候报错这个是为什么?

展开

收起

小小鹿鹿鹿 2024-03-11 16:19:30 189 版权

阿里云 AI 助理回答

根据您提供的问题描述，您在执行Flink CDC中的LOAD案例时遇到了报错。以下是可能的原因分析及解决方案，基于知识库中的相关资料进行整理和推导：

1. 报错原因分析

1.1 作业逻辑复杂导致JobGraph过大

如果您的LOAD案例涉及复杂的SQL逻辑或大量表的加载操作，可能会导致生成的JobGraph过大，从而触发类似以下错误：

RESOURCE_EXHAUSTED: gRPC message exceeds maximum size 41943040: 58384051

这种问题通常发生在作业逻辑过于复杂或数据量较大的场景中。

1.2 依赖冲突或方法缺失

如果您在执行LOAD案例时使用了某些自定义函数或依赖了社区版的内部API（例如org.apache.flink.table.planner.plan.metadata.FlinkRelMetadataQuery），可能会出现以下错误：

Caused by: java.lang.NoSuchMethodError

这通常是由于依赖冲突或使用了阿里云Flink版本未兼容的内部API导致的。

1.3 类加载冲突

如果您的作业中引入了第三方库（例如org.codehaus.janino.CompilerFactory），可能会因为类加载顺序不一致导致冲突，报错信息类似于：

java.lang.ClassCastException: org.codehaus.janino.CompilerFactory cannot be cast to org.codehaus.commons.compiler.ICompilerFactory

这种情况通常发生在不同机器上运行时，类加载顺序不一致导致的冲突。

1.4 网络连通性问题

如果您的LOAD案例涉及外部数据源（例如MySQL、Kafka等），可能会因为网络连通性问题导致任务失败。例如： - 如果配置了自建DNS域名解析，可能会出现JobManager heartbeat timeout错误。 - 如果Flink无法正确解析Kafka Broker的Endpoint，可能会导致timeout expired while fetching topic metadata错误。

2. 解决方案

根据上述可能的原因，以下是针对性的解决方案：

2.1 优化作业逻辑

减少JobGraph大小：在作业的其他配置中添加以下参数，限制操作符名称的最大长度，从而减小JobGraph的大小：
```
table.exec.operator-name.max-length: 1000
```
具体操作请参考如何配置自定义的作业运行参数。

2.2 检查依赖冲突

避免使用内部API：确保您的代码仅依赖Flink官方标注为@Public或@PublicEvolving的API。如果使用了社区版的内部API，请替换为兼容的实现。

解决类加载冲突：在作业的其他配置中添加以下参数，指定优先加载冲突的类：

classloader.parent-first-patterns.additional: org.codehaus.janino

同时，确保Flink相关依赖的作用域设置为provided，例如：

<dependency>
  <groupId>org.apache.flink</groupId>
  <artifactId>flink-streaming-java_2.11</artifactId>
  <version>${flink.version}</version>
  <scope>provided</scope>
</dependency>

2.3 检查网络连通性

关闭TaskManager的域名解析：如果配置了自建DNS域名解析，建议在作业中关闭对TaskManager的域名解析：
```
jobmanager.retrieve-taskmanager-hostname: false
```
这不会影响作业通过域名连接外部服务。
确认Kafka Endpoint连通性：检查Kafka Broker的metadata信息，确保Flink可以连通对应的Endpoint。具体步骤如下：
1. 使用zkCli.sh或zookeeper-shell.sh工具登录Kafka使用的Zookeeper。
2. 执行以下命令查看Broker的metadata信息：
```
get /brokers/ids/{your_broker_id}
```
3. 确认listener_security_protocol_map中的Endpoint是否可以被Flink访问。

2.4 验证数据源配置

检查MySQL CDC配置：如果LOAD案例涉及MySQL CDC源表，请确保以下配置正确：
- MySQL实例必须是可写实例或升级至更高版本（RDS MySQL 5.6备库或只读实例可能导致增量数据无法读取）。
- 检查Binlog过滤器配置，确保目标库的Binlog未被忽略：
```
SHOW MASTER STATUS;
```
查看Binlog_Do_DB和Binlog_Ignore_DB字段。