flink mysql cdc 2.3.0 版本，想要断点续传怎么弄？

flink mysql cdc 2.3.0 版本，想要断点续传

在SourceRecord sourceRecord
获取的 partitionMap = sourceRecord.sourceOffset();
offsetMap = sourceRecord.sourcePartition();

file 都是空的，正常应该是。binlog-202xxx.log文件名称？

展开

收起

真的很搞笑 2023-12-04 08:09:41 449 0

4 条回答

写回答

取消提交回答

小伍呀
在 Flink MySQL CDC 2.3.0 版本中，要实现断点续传的功能，您需要借助于 Flink 的 savepoint 机制。savepoint 允许您在作业运行过程中指定一个检查点，以便在发生故障时从该检查点恢复，而不是从头开始。这对于长时间运行的作业特别有用，因为它可以在作业失败时节省大量的时间。

具体操作步骤如下：
1. 使用 savepoint 命令启动 Flink 作业，并将 savepoint 名称作为参数传递。例如：bin/flink run -s <savepoint-name> <job-jar-file>。
2. 如果作业因为某些原因失败，您可以使用之前创建的 savepoint 来恢复作业，而不是从头开始。例如：bin/flink run -s <savepoint-name> <job-jar-file>。
2023-12-04 23:00:19

赞同展开评论打赏
Star时光
在Flink MySQL CDC 2.3.0版本中，要实现断点续传，您可以尝试以下方法：
1. 检查MySQL配置：确保MySQL数据库的binlog模式已启用。断点续传依赖于MySQL的binlog来记录数据变更，如果未启用binlog，则无法进行断点续传。
2. 使用SourceRecord获取offset信息：您可以通过sourceRecord.sourceOffset()方法获取当前事件的偏移量信息。这些偏移量可以被用于保存和恢复断点状态，以便在重新启动应用程序后从上次离开的地方继续消费。
3. 确认offsetMap和partitionMap：根据您提供的信息，sourceRecord.sourcePartition()应该是用于标识不同分区的信息，而sourceRecord.sourceOffset()应该是用于标识具体的偏移量。检查这两个map是否包含了正确的信息，例如binlog文件名称和偏移量。
4. 自定义文件存储机制：如果sourceRecord.sourceOffset()和sourceRecord.sourcePartition()中没有正确的偏移量和分区信息，您可以考虑自己实现一个持久化存储机制，将偏移量保存到外部存储（如数据库、文件系统等）中。这样，在应用程序重新启动时，您可以从存储中读取上一次保存的偏移量，并使用它们来恢复断点状态。
2023-12-04 20:42:49

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在Flink MySQL CDC 2.3.0版本中，要实现断点续传，可以通过以下步骤进行：
1. 首先，确保你已经正确配置了Flink MySQL CDC连接器。可以参考官方文档进行配置：https://ci.apache.org/projects/flink/flink-docs-release-1.14/zh/docs/connectors/table/mysqlcdc/
2. 在你的Flink程序中，使用DebeziumSourceFunction作为数据源。这个函数会自动处理断点续传的逻辑。
3. 为了获取正确的文件名，你需要设置debezium-sql-connector.offset.storage参数为filesystem。这样，连接器会将偏移量存储在文件系统中。
4. 在你的Flink程序中，需要设置checkpointInterval参数，以便定期检查点。这样，当发生故障时，可以恢复最近的检查点，从而实现断点续传。
2023-12-04 13:53:07

赞同展开评论打赏
sunrr

Flink MySQL CDC 2.3.0版本确实支持断点续传的特性，其实现得益于MySQL CDC连接器在2.3版本中进行的一系列性能优化和稳定性大改进。这意味着在该版本中，CDC的SQL connector可以运行在不同的Flink集群上而无需任何修改。

为了实现断点续传，你需要从SourceRecord中获取partitionMap和offsetMap。这两个参数分别代表了数据的分区和相对于起始位置的偏移量，它们决定了Flink CDC任务从哪个位置开始读取数据。

对于Binlog文件的名称，当你使用Flink CDC读取MySQL的BinLog日志时，如果发现读取到日期类型的数据和数据库中存储的相差八小时，那可能是因为存在时间转换问题。此外，你需要确保MySQL的binlog是开启的，因为增量同步是基于binlog捕获数据的。

2023-12-04 11:20:08

赞同展开评论打赏