开发者社区> 问答> 正文

在使用 Flink CDC 写入 Hudi 时,如何解决数据倾斜问题?

在使用 Flink CDC 写入 Hudi 时,如何解决数据倾斜问题?

展开
收起
花开富贵111 2024-08-19 14:45:23 24 0
1 条回答
写回答
取消 提交回答
  • 数据倾斜问题可以通过多表混合读取的方式来解决。在引入多表混合读取之前,Flink CDC 会按顺序读取完所有表的全量数据,导致下游 sink 在读取单一表数据时发生倾斜。实现多表混合读取后,Flink CDC 会同时读取多张表的 chunk 数据,例如先读取 tableA 的 chunk1,再读取 tableB 的 chunk1,以此类推,直到所有表的 chunk 数据都被读取,从而保证了每个 sink 都有数据流入,有效解决了数据倾斜问题。image.png
    image.png

    2024-08-19 16:15:49
    赞同 4 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载