Flink CDC产品常见问题之写入顺序不符合预期如何解决-阿里云开发者社区

Flink CDC产品常见问题之写入顺序不符合预期如何解决

2024-03-14 255

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

简介： Flink CDC（Change Data Capture）是一个基于Apache Flink的实时数据变更捕获库，用于实现数据库的实时同步和变更流的处理；在本汇总中，我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答，目的是辅助用户更好地理解和应用这一技术，优化实时数据处理流程。

问题一：Flink CDC里flink postgresql cdc 支持断点续传吗？有适当的代码吗？

Flink CDC里flink postgresql cdc 支持断点续传吗？有适当的代码吗？我想看看，我设置了checkpoint，但是看了还是很老的数据也cdc下来了。Cdc目前配置目前source postgresqlcdc

snapshot.mode: never

plugin.name: pgoutput

slot.name: myslot_test，然后 checkpoint周期3分钟，每次记录 struct 记录里面的 offset，重启的时候，我就拿上一次checkpoint得这个去指定，发现好像不生效，哪里不对啊？

参考答案：

增量快照都支持。按照官网文档

https://ververica.github.io/flink-cdc-connectors/release-3.0/content/connectors/postgres-cdc.html

。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/599262?spm=a2c6h.12873639.article-detail.42.50e24378TRW91E

问题二：Flink CDC里我在做mysql到doris的整库同步，怎么做到下面这个操作？

Flink CDC里我在做mysql到doris的整库同步，需要把某个表排除，通过debezium.table.exclude.list设置了排除的表名，但没有生效，还是把所有表都同步了，有碰到过类似问题的吗？是不是用法不对？ yaml任务文件这么配置的。这个是正向匹配吧？怎么做到反向排除？

参考答案：

用这个试试。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/599259?spm=a2c6h.12873639.article-detail.43.50e24378TRW91E

问题三：Flink CDC里mysql通过cdc到doris，mysql的opts只到秒，那写入顺序咋保证？

Flink CDC里mysql通过cdc到doris，mysql的opts只到秒，那写入顺序咋保证？如果1年内更新了两次，可能顺序就不对，比如cp设置1秒，那1秒内累计的数据一个批次到doris，doris不按照顺序写吧？

参考答案：

增量阶段并行度只有1就是为了保证顺序，且全局为1。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/599258?spm=a2c6h.12873639.article-detail.44.50e24378TRW91E

问题四：flink cdc 3.0支持如下场景吗？

flink cdc 3.0支持如下场景吗？MySQL整库同步Doris一段时间以后，新建了一张MySQL新表，任务会动态感知，并对这个新表进行全量+增量同步。我将任务从checkpoint恢复，但是不会同步新表的数据，但是新表的名称是满足表的正则表达式的是为什么？ pipeline connector能用source connector的options吗？

参考答案：

目前不支持，但是目前支持动态加表，从快照重启作业，对这个新表进行全量+增量同步同步，新增表也不会断流。我刚刚看了代码，动态加表的pipeline没有通过参数暴漏出来。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/599257?spm=a2c6h.12873639.article-detail.45.50e24378TRW91E

问题五：Flink cdc在全量阶段所需的TaskManager在增量阶段会释放吗还是一直占用啊？

Flink cdc在全量阶段所需的TaskManager在增量阶段会释放吗还是一直占用啊？增量阶段应该只需要一个并行度读取binlog数据就行了吧？

参考答案：

需要开启自动释放哈，最好是flink>=1.15版本。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/599256?spm=a2c6h.12873639.article-detail.46.50e24378TRW91E

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

Flink CDC产品常见问题之写入顺序不符合预期如何解决

问题一：Flink CDC里flink postgresql cdc 支持断点续传吗？有适当的代码吗？

问题二：Flink CDC里我在做mysql到doris的整库同步，怎么做到下面这个操作？

问题三：Flink CDC里mysql通过cdc到doris，mysql的opts只到秒，那写入顺序咋保证？

问题四：flink cdc 3.0支持如下场景吗？

问题五：Flink cdc在全量阶段所需的TaskManager在增量阶段会释放吗还是一直占用啊？

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

Flink CDC产品常见问题之写入顺序不符合预期如何解决

问题一：Flink CDC里flink postgresql cdc 支持 断点续传吗？有适当的代码吗？

问题二：Flink CDC里我在做mysql到doris的整库同步，怎么做到下面这个操作？

问题三：Flink CDC里mysql通过cdc到doris，mysql的opts只到秒，那写入顺序咋保证？

问题四：flink cdc 3.0支持如下场景吗？

问题五：Flink cdc在全量阶段所需的TaskManager在增量阶段会释放吗 还是一直占用啊？

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

问题一：Flink CDC里flink postgresql cdc 支持断点续传吗？有适当的代码吗？

问题五：Flink cdc在全量阶段所需的TaskManager在增量阶段会释放吗还是一直占用啊？