Flink CDC里这个报错是什么原因？

Flink CDC里这个报错是什么原因？现在是单机版了doris和flink在同一台机器上。

展开

收起

小小鹿鹿鹿 2024-05-01 08:56:11 104 版权

阿里云 AI 助理回答

根据您提供的报错信息和知识库资料，以下是关于Flink CDC报错的详细分析和解决方案：

1. 报错原因分析

在Flink CDC场景中，常见的报错可能与以下因素相关：

1.1 网络连通性问题

Flink CDC依赖于Kafka、MySQL等外部服务进行数据同步。如果Flink与这些服务之间的网络不通，可能会导致数据读取失败或超时。
- 检查点：确认Flink与Doris、MySQL等服务是否在同一VPC下。如果不在同一VPC，需要配置跨VPC访问或公网访问。 - 解决方法：使用Flink控制台的网络探测功能，测试Flink作业运行环境与上下游服务的连通性。

1.2 资源不足

单机部署可能导致CPU、内存或磁盘资源不足，进而引发任务卡顿或失败。
- 检查点： - 检查TaskManager的CPU使用率是否过高（可能导致finish split response timeout异常）。 - 检查磁盘空间是否耗尽（可能导致No space left on device错误）。 - 解决方法： - 增加TaskManager的CPU资源。 - 减少每个TaskManager上的Slot数量，降低单节点并行任务数。

1.3 数据重复投递

在非正常情况下（如故障发生），Canal可能以at-least-once语义投递变更事件，导致Flink消费到重复数据。
- 检查点：确认是否有重复的变更事件被投递到Kafka。 - 解决方法： - 在Flink作业参数中设置table.exec.source.cdc-events-duplicate=true。 - 在Source表上定义PRIMARY KEY，以便Flink生成有状态算子对变更事件去重。

1.4 Checkpoint失败

如果Checkpoint连续失败，可能会触发作业Failover。
- 检查点： - 检查Checkpoint的超时时长是否过短。 - 检查Kafka生产者池大小是否不足。 - 解决方法： - 调整execution.checkpointing.timeout参数，延长Checkpoint超时时长。 - 增加Kafka生产者池大小或减少并发Checkpoint数量。

2. 解决方案步骤

2.1 排查网络连通性

登录实时计算Flink控制台。
单击目标工作空间操作列下的控制台。
使用网络探测功能，输入上下游服务的Endpoint或IP地址，测试连通性。
- 如果报错connect timed out，确认是否需要跨VPC访问或公网访问，并参考如何访问跨VPC的其他服务？和如何访问公网？。

2.2 检查资源使用情况

检查TaskManager的CPU使用率：
- 如果CPU使用率过高，增加TaskManager的CPU资源。
检查磁盘空间：
- 如果磁盘空间不足，减少每个TaskManager上的Slot数量或增加CPU核心数以提高磁盘配额。

2.3 处理数据重复投递

在Flink作业参数中添加以下配置：

table.exec.source.cdc-events-duplicate=true

在Source表上定义PRIMARY KEY，例如：

CREATE TABLE KafkaTable (
   user_id BIGINT PRIMARY KEY,
   item_id BIGINT,
   behavior STRING
) WITH (
   'connector' = 'kafka',
   'topic' = 'user_behavior',
   'properties.bootstrap.servers' = 'localhost:9092',
   'value.format' = 'canal-json'
);

2.4 调整Checkpoint配置

延长Checkpoint超时时长：
```
execution.checkpointing.timeout: 10min
```
增加Kafka生产者池大小或减少并发Checkpoint数量：
```
execution.checkpointing.tolerable-failed-checkpoints: 3
```