Flink CDC里使用mongodb-cdc是不是一定得显式配置checkpoint？

展开

收起

小小鹿鹿鹿 2024-04-02 22:14:16 42 版权

阿里云 AI 助理回答

在Flink CDC中使用MongoDB CDC时，是否需要显式配置checkpoint取决于具体的使用场景和功能需求。以下是详细说明：

1. Checkpoint的作用

Checkpoint是Flink实现容错机制的核心功能，用于在作业失败时恢复状态。对于MongoDB CDC连接器，Checkpoint的主要作用包括： - 断点续传：通过记录Change Stream的Resume Token，确保作业可以从上次停止的位置继续读取数据。 - 增量快照支持：如果启用了增量快照功能（scan.incremental.snapshot.enabled=true），Checkpoint是必需的，因为增量快照依赖于Checkpoint来记录读取进度。

2. 是否必须显式配置Checkpoint

默认情况下：Flink作业会启用Checkpoint机制，但默认的Checkpoint间隔时间可能不适合MongoDB CDC的使用场景。因此，建议根据实际需求显式配置Checkpoint参数。
特定场景下的要求：
- 如果启用了增量快照功能，则必须显式配置Checkpoint，并确保Checkpoint能够正常触发。
- 如果未启用增量快照功能，且仅进行全量或增量读取，则Checkpoint不是强制要求，但仍然建议配置以提高作业的容错能力。

3. 如何配置Checkpoint

在Flink作业中，可以通过以下方式显式配置Checkpoint参数：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(10 * 60 * 1000); // 每10分钟触发一次Checkpoint
env.getCheckpointConfig().setTolerableCheckpointFailureNumber(100); // 容忍Checkpoint失败次数
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(5000); // Checkpoint之间的最小间隔

4. 重要注意事项

Resume Token的有效性：MongoDB CDC依赖Resume Token来恢复Change Stream。如果Checkpoint间隔过长，可能导致Resume Token对应的记录在oplog.rs中被清理，从而引发无效Resume Token的异常。因此，建议合理设置Checkpoint间隔时间，并调整oplog.rs的大小以避免日志过早被清理。
增量快照的依赖：如果启用了增量快照功能（scan.incremental.snapshot.enabled=true），必须确保Checkpoint能够正常触发，否则可能导致作业无法正确恢复。