Flink CDC有谁遇到同步报错这个的吗？然后就卡住了，ERROR com.ververica.c

Flink CDC有谁遇到同步报错这个的吗？然后就卡住了，ERROR com.ververica.cdc.connectors.mysql.debezium.reader.SnapshotSplitReader - Execute snapshot read task for mysql split MySqlSnapshotSplit{tableId=new_qn.rb_user_bus, splitId='new_qn.rb_user_bus:22', splitKeyType=[user_id BIGINT NOT NULL], splitStart=[1025972], splitEnd=[1072607], highWatermark=null} fail

展开

收起

真的很搞笑 2023-04-26 11:14:26 277 版权

阿里云 AI 助理回答

遇到Flink CDC同步报错并卡住的问题，具体错误信息为执行MySQL表的快照读取任务失败。根据您提供的错误信息和参考资料，这里提供一个解决思路和步骤：

问题描述

用户在使用Flink CDC进行数据同步时遇到错误，错误发生在对MySQL表new_qn.rb_user_bus执行快照读取任务期间，导致同步过程暂停。

背景信息

Flink CDC：Apache Flink的Change Data Capture功能，用于捕获数据库中的数据变更事件（如INSERT、UPDATE、DELETE）并传输到其他系统。
Debezium：常用的Flink CDC连接器之一，特别适用于MySQL等数据库的CDC操作。
Snapshot Split Reader：在Debezium中负责处理初始快照加载，即在开始流式处理变更之前，先全量读取表的数据。

解决方案

检查表结构与权限
- 确认您的Flink作业使用的数据库账号对表new_qn.rb_user_bus有SELECT权限。如果权限不足，需要授予相应权限后重试。
检查高水位标记(High Watermark)
- 高水位标记未正确设置可能导致读取任务失败。检查配置中是否正确设置了高水位相关的参数，确保Debezium能够正确识别已处理的最大事务ID或时间戳。
日志分析与调试
- 查看Flink作业的日志详细信息，寻找更具体的错误原因提示。通常，错误日志会包含更多关于为何读取任务失败的细节。
- 特别注意是否有模式不一致的警告或错误，这可能意味着Debezium无法识别表结构的变化或某些字段类型。
检查表数据范围
- 错误信息中提到的splitStart和splitEnd表明了读取的分区范围。确认这个范围内是否存在大量数据或特殊数据类型，可能导致读取超时或解析异常。
Debezium配置调整
- 如果问题与特定的变更事件解析有关，考虑调整Debezium的配置，例如设置'debezium.inconsistent.schema.handling.mode' = 'warn'来避免因未知变更而直接失败，并通过日志进一步诊断问题。
资源与网络检查
- 确保Flink集群资源充足，没有因为资源限制导致任务执行失败。同时，检查网络状况，确保数据库与Flink集群之间的通信无阻。
重新初始化或清理Replication Slot
- 如果之前的尝试均未能解决问题，可能是复制槽(replication slot)状态不一致导致。可以尝试手动清理复制槽后重新启动作业：
```
SELECT pg_drop_replication_slot('your_slot_name');
```
  然后在Flink作业配置中添加自动清理slot的设置，如'debezium.slot.drop.on.stop' = 'true'。