请问2.2版本解决了全量增量数据重复的问题了嘛？

展开

收起

真的很搞笑 2023-07-02 18:02:32 138 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 2.2版本已经解决了全量增量数据重复的问题。
在Flink CDC 2.2版本中，引入了新的增量读取算法，该算法可以有效地避免全量和增量数据重复的问题。具体来说，Flink CDC 2.2版本使用了类似于WAL（Write-Ahead-Log，预写式日志）的技术，将全量数据和增量数据的读取过程分离，以确保全量数据和增量数据在读取和处理时不会重复。同时，Flink CDC 2.2版本还引入了更加高效的数据缓存和管理机制，以提高任务的性能和稳定性。
需要注意的是，虽然Flink CDC 2.2版本已经解决了全量增量数据重复的问题，但是在实际使用过程中仍然需要注意一些细节和配置。例如，如果使用的是MySQL数据库，需要确保MySQL的binlog格式为ROW格式，并且Flink CDC任务的debezium.snapshot.mode配置为initial，以确保全量数据和增量数据的读取顺序正确。同时，也建议您参考Flink CDC官方文档和示例代码

2023-07-30 09:36:41

赞同展开评论
Star时光

根据提供的信息，Flink CDC 在 2.4 版本中解决了全量增量数据重复的问题。所以，2.2 版本可能仍然存在这个问题。

在 Flink CDC 2.4 版本中，引入了一个新的参数 debezium.source.timestamp-mode，用于控制 Flink CDC 如何处理时间戳，从而避免全量和增量数据重复写入。该参数有以下几个可选值：

- processing_time：使用 Flink 的处理时间作为时间戳，适用于仅关注最新数据的场景。 - connect：使用 Kafka Connect 的服务器时间戳（消息产生时间）作为时间戳，适用于需要保留源表时间戳的场景。 - append：将源表的时间戳字段追加到变更事件中作为时间戳，适用于需要完整的变更历史的场景。

通过设置合适的时间戳模式，可以避免全量和增量数据重复写入的问题。

因此，如果你遇到了全量增量数据重复的问题，建议考虑升级到 Flink CDC 2.4 版本或更高版本，以获得修复该问题的功能。

请注意，在升级之前，请确保仔细阅读 Flink CDC 的文档和相关说明，并进行充分的测试，以确保能够适应新版本的特性和行为。

2023-07-30 09:38:59

赞同展开评论
芯在这

好像是2.4版本解决了。你去看看2.4版本的说明，此回答整理自钉群“Flink CDC 社区”

2023-07-02 18:04:55

赞同展开评论

请问2.2版本解决了全量增量数据重复的问题了嘛？

实时计算 Flink

相关文章

热门讨论

热门文章