Flink CDC在处理Incremental Snapshot PG数据库时-阿里云开发者社区

Flink CDC在处理Incremental Snapshot PG数据库时

2024-01-03 756

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Flink CDC在处理Incremental Snapshot PG数据库时

Flink CDC在处理Incremental Snapshot PG数据库时，默认按主键第一个column来划分chunk。如果遇到一张大表，主键是多个字段组成的，按第一个主键的column划分出现了数据倾斜的问题，可以尝试以下方法解决：

调整scan.incremental.snapshot.chunk.size参数，增加每个chunk的大小，以便容纳更多的数据。
使用scan.incremental.snapshot.chunk.key-column配置指定某个表按配置的pk组合键来划分chunk。例如，如果你想要按fdbid和BIGINT NOT NULL两个字段的组合键划分chunk，可以这样配置：

flink-cdc:
  source:
    connector:
      type: ... # 您的数据源连接器类型
      ...
    properties:
      scan.incremental.snapshot.chunk.size: 8096
      scan.incremental.snapshot.chunk.key-column: "fdbid, BIGINT NOT NULL"

如果上述方法仍然无法解决问题，可以考虑对数据进行预处理，将多字段的主键拆分成多个列，然后根据这些列的值进行分区。这样可以避免数据倾斜问题。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。