Flink CDC中pgcdc的数据加载逻辑是怎么样的,为什么的insert-time比较久的数据关联不上,明明能在数据库查到但是cdc却关联不是,时间比较新的就可以关联的上?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Flink CDC 中, pgcdc 的数据加载逻辑如下:
pgcdc 通过连接 PostgreSql 数据库,监听数据库的 binlog 日志。
每当有一条新的 binlog 日志写入到数据库中,pgcdc 会读取该条日志,并解析其中的数据变更信息。
pgcdc 会根据数据变更信息,生成一个 Flink Source 的输入记录。
Flink Source 会将这些输入记录发送到 Flink 集群中。
Flink 集群中的计算任务会对输入记录进行处理,并将处理结果写入到外部存储系统中。
通过这种方式,Flink CDC 可以将 PostgreSQL 数据库中的数据实时同步到外部存储系统中。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。