有遇到过Flink CDC。任务进程被kill 之后。导致他一直重启失败的问题吗？

有遇到过Flink CDC。任务进程被kill 之后。他又从最早的scn开始。因为归档日志被删除。导致他一直重启失败的问题吗？

展开

收起

真的很搞笑 2023-09-06 18:20:59 155 版权

阿里云 AI 助理回答

是的，Flink CDC任务在进程被kill后，如果归档日志（如MySQL的Binlog或PostgreSQL的WAL日志）被删除，确实可能导致任务从最早的SCN（System Change Number）开始读取时失败，并进入不断重启的状态。以下是问题的原因分析及解决方案：

问题原因

任务重启时的消费位置
Flink CDC任务在重启时，默认会尝试从上次保存的消费位点（如Binlog位点或WAL日志位置）继续消费数据。如果归档日志已被清理，任务无法找到对应的消费位点，就会回退到最早的SCN开始读取。
归档日志被清理的原因
- 数据库的日志保留策略可能导致归档日志被自动清理。例如：
  - 阿里云RDS MySQL的日志保留策略通常为最长18小时或占用存储空间不超过30%。
  - 如果写入量较大，日志可能在短时间内被清理。
- 手动清理日志或数据库迁移操作也可能导致归档日志不可用。
任务重启策略的影响
默认情况下，Flink CDC任务会在失败后尝试重启。如果归档日志缺失，任务会持续失败并重启，形成死循环。

解决方案

1. 调整Flink的重启策略

为了避免任务因日志缺失而无限重启，可以配置Flink的重启策略，限制最大重启次数。例如：

restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 2
restart-strategy.fixed-delay.delay: 10 s

上述配置表示：任务最多尝试重启两次，每次重启前等待10秒。如果两次重启均失败，任务将彻底退出，而不是持续重启。

2. 确保归档日志的可用性

调整数据库日志保留策略
延长日志保留时间或增加日志存储空间，确保在任务重启时所需的归档日志仍然可用。例如，在阿里云RDS中，可以通过调整binlog_expire_logs_seconds参数来延长Binlog的保留时间。
避免使用只读实例
如果任务配置为从只读实例读取CDC数据，可能会因为只读实例的Binlog保留时间较短（可能仅保留10秒）而导致日志不可用。建议直接从主实例读取数据。

3. 全新启动任务

如果归档日志已经丢失且无法恢复，可以选择全新启动任务。具体步骤如下： 1. 停止当前任务
在实时计算控制台中停止失败的任务。 2. 清理下游表
删除下游目标表中的数据，以避免重复写入。 3. 无状态启动任务
配置任务从最新的Binlog位点开始消费（scan.startup.mode=latest-offset），而不是从历史位点恢复。