开发者社区> 问答> 正文

Flink + Canal的实时数据入湖架构存在哪些主要问题?

Flink + Canal的实时数据入湖架构存在哪些主要问题?

展开
收起
花开富贵111 2024-08-19 11:35:46 38 0
1 条回答
写回答
取消 提交回答
  • Flink + Canal的实时数据入湖架构主要存在三个问题。首先,全量与增量数据存在重复,因为采集过程中不会锁表,可能导致在全量采集过程中采集到已变更的数据,从而造成数据重复。其次,需要下游进行Upsert或Merge写入来剔除重复数据,增加了处理复杂度和资源消耗。最后,该架构涉及多个组件(Flink、Canal、Kafka、Spark)和较长的链路,导致资源消耗大且难以维护。image.png

    2024-08-19 16:05:19
    赞同 3 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
哈啰出行基于阿里云数据湖构建实践 立即下载
《基于Apache Hudi的CDC数据入湖》 立即下载
云原生数据湖构建、分析与开发治理最佳实践 立即下载