Flink CDC我第一次启动没有全量同步咋回事?比如今天才开始cdc,昨天之前历史的数据能捕获到吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Flink CDC在第一次启动时,默认会执行全量同步,只读取一次全量数据,而不读取binlog。这种同步策略主要是为了获取数据的初始状态,也就是实时一致性快照。因此,如果你今天刚开始使用CDC,昨天的原始数据是可以通过这次全量同步捕获到的。
在全量阶段同步完成之后,Flink CDC就可以进行增量读取了。然而,如果发现并没有开始同步增量数据,可能的原因有两个:一是MySQL中对应的数据库没有开启binlog;二是设置的checkpoint间隔时间过大,例如20分钟,这会导致作业20分钟后才开始同步增量数据。因此,需要根据业务情况合理配置相关参数。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。