Flink CDC使用datax或者其他全量工具同步到kafka;
第二步等kafka消费端完成了消费;
第三步消费完后启动flink cdc增量方式,把同步全量开始的时间转换时间戳作为flink增量的时间戳开始同步更新;
全量(datax)和增量(flink cdc)结合,是这个意思吧?
你的理解基本正确。在Flink CDC中,新加的表需要先进行全量同步,将全部数据同步到目标数据源(如Kafka),这是因为增量同步需要先建立Offset(或者Checkpoint)来记录同步进度,而新添加的表在Offset中并没有记录。全量同步完成后,CDC作业会进入增量同步阶段,继续对新表进行增量同步。在增量同步过程中,CDC作业会监听源数据库中指定表的变化,捕获变化的数据并写入到目标数据源中。
此外,Flink CDC通过直接读取数据库日志捕获数据变更,保障了数据的实时性和一致性。并且,Flink CDC支持全量和增量两种读取方式。
flink-cdc是全增量一体的,本身增量快照算法拉历史数据也是无锁的,配合flink的检查点机制,就是为了保证数据一条不多,一条不少。 ,此回答整理自钉群“Flink CDC 社区”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。