问题一:在Flink CDC项目中,我正在使用Flink PostgreSQL CDC功能是否支持断点续传?
在Flink CDC项目中,我正在使用Flink PostgreSQL CDC功能,想知道它是否支持断点续传(即从上次停止的位置恢复读取变更数据)。我已经设置了checkpoint,周期为3分钟,并且在每次checkpoint时保存了PostgreSQL CDC source的offset记录。在配置文件中,我设置了如下参数:snapshot.mode: never
plugin.name: pgoutput
slot.name: myslot_test
但是在作业重启时,我尝试使用上一次checkpoint中保存的offset来恢复CDC数据流,却发现从老数据开始读取,而不是从上次checkpoint的offset处开始。请问我的配置或恢复方式是否存在错误,为什么断点续传没有生效?有没有相关的代码示例可以参考?
参考答案:
增量快照都支持。按照官网文档
https://ververica.github.io/flink-cdc-connectors/release-3.0/content/connectors/postgres-cdc.html
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599262
问题二:FlinkCDC 3.0 mini-cluster 模式下如指定 checkpoint?
FlinkCDC 3.0 mini-cluster 模式下如指定 checkpoint?
参考答案:
在Flink CDC 3.0的mini-cluster模式下,你可以通过修改flink-conf.yaml
配置文件来指定checkpoint的时间间隔。具体操作如下:
- 编辑配置文件:找到Flink的配置文件
flink-conf.yaml
,这个文件通常位于Flink安装目录的conf
文件夹下。 - 设置checkpoint间隔:在
flink-conf.yaml
文件中,找到execution.checkpointing.interval
配置项,将其值设置为你想要的checkpoint间隔时间,单位是毫秒。例如,如果你想要设置checkpoint间隔为5秒,那么应该将配置项设置为execution.checkpointing.interval: 5000
。 - 其他checkpoint配置:你还可以根据需要设置其他与checkpoint相关的配置,例如checkpoint的执行模式、最小暂停时间以及允许的失败次数等。
- 保存并重启:保存对配置文件的修改,并重启Flink集群以使更改生效。
请注意,设置checkpoint间隔时需要考虑作业的数据处理速度和系统资源,以确保checkpoint能够成功完成而不会导致作业failover。此外,合理的checkpoint间隔可以提高Flink作业的容错能力和恢复速度,是确保Flink可靠性的重要配置。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599260
问题三:Flink CDC里我在做mysql到doris的整库同步,怎么做到下面这个操作?
Flink CDC里我在做mysql到doris的整库同步,需要把某个表排除,通过debezium.table.exclude.list设置了排除的表名,但没有生效,还是把所有表都同步了,有碰到过类似问题的吗?是不是用法不对? yaml任务文件这么配置的。这个是正向匹配吧?怎么做到反向排除?
参考答案:
用这个试试。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599259
问题四:Flink CDC里mysql通过cdc到doris,mysql的opts只到秒,那写入顺序咋保证?
Flink CDC里mysql通过cdc到doris,mysql的opts只到秒,那写入顺序咋保证?如果1年内更新了两次,可能顺序就不对,比如cp设置1秒,那1秒内累计的数据一个批次到doris,doris不按照顺序写吧?
参考答案:
增量阶段并行度只有1就是为了保证顺序,且全局为1。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/599258
问题五:flink cdc 3.0支持如下场景吗?
flink cdc 3.0支持如下场景吗?MySQL整库同步Doris一段时间以后,新建了一张MySQL新表,任务会动态感知,并对这个新表进行全量+增量同步 。我将任务从checkpoint恢复,但是不会同步新表的数据,但是新表的名称是满足表的正则表达式的是为什么?
参考答案:
前不支持,但是目前支持动态加表,从快照重启作业,对这个新表进行全量+增量同步同步,新增表也不会断流。 我刚刚看了代码, 动态加表的pipeline没有通过参数暴漏出来
关于本问题的更多回答可点击进行查看: