开发者社区 问答 正文

在使用 Flink CDC 写入 Hudi 时,如何解决数据倾斜问题?

在使用 Flink CDC 写入 Hudi 时,如何解决数据倾斜问题?

展开
收起
花开富贵111 2024-08-19 14:45:23 68 发布于黑龙江 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  • 数据倾斜问题可以通过多表混合读取的方式来解决。在引入多表混合读取之前,Flink CDC 会按顺序读取完所有表的全量数据,导致下游 sink 在读取单一表数据时发生倾斜。实现多表混合读取后,Flink CDC 会同时读取多张表的 chunk 数据,例如先读取 tableA 的 chunk1,再读取 tableB 的 chunk1,以此类推,直到所有表的 chunk 数据都被读取,从而保证了每个 sink 都有数据流入,有效解决了数据倾斜问题。image.png
    image.png

    2024-08-19 16:15:49 举报
    赞同 4 评论

    评论

    全部评论 (0)

    登录后可评论