Flink CDC 3.0 对于字符串类型的切片键(sharding key)确实存在一些问题,它不能直接进行切分。这是因为 Flink CDC 3.0 默认使用 HashPartitioner 对数据进行分区,而 HashPartitioner 只能处理数值类型的键。
为了解决这个问题,你可以考虑以下几种方法:
使用自定义的 Partitioner:你可以创建一个自定义的 Partitioner,它可以根据字符串键的某些特征(例如哈希值、长度等)来进行分区。然后,你可以在 Flink CDC 任务中配置这个自定义的 Partitioner。
使用其他分区策略:除了 HashPartitioner,Flink 还提供了其他一些分区策略,例如 RangePartitioner 和 RoundRobinPartitioner。你可以尝试使用这些分区策略,看看它们是否适用于你的场景。
使用字符串哈希函数:你可以使用某种字符串哈希函数(例如 MurmurHash、CityHash 等)来计算字符串键的哈希值,然后将这个哈希值用作 HashPartitioner 的输入。
请注意,这些方法可能需要你进行一些额外的开发和调试工作。如果你不确定如何实施这些方法,你可以查阅 Flink 的官方文档,或者寻求专业的技术支持。
Flink CDC 2.2.1 版本不支持通过 source 指定 binlog 或者 timestamp 的方式来做增量同步。在 Flink CDC 2.2.1 版本中,增量同步是基于数据库的 binlog 日志来实现的,而不是通过指定具体的 binlog 文件或者时间戳。
然而,Flink CDC 2.2.1 版本支持在执行 checkpoint 时将位点存储到 state,以支持 exacty-once 语义。这意味着,如果你想要从特定的位点开始同步数据,你可以通过从 savepoint 恢复的方式来实现。
需要注意的是,这种方法并不能精确地控制同步的起始位点,因为它依赖于 Flink 任务的 checkpoint 机制。此外,由于 Flink CDC 依赖于 Debezium engine 来捕获数据更改,因此在恢复位点的同时,还需要恢复 HistoryDatabase,这可能会增加恢复过程的复杂性。