文档备案控制台

开发者社区问答正文

Flink + Canal的实时数据入湖架构存在哪些主要问题？

Flink + Canal的实时数据入湖架构存在哪些主要问题？

展开

收起

花开富贵111 2024-08-19 11:35:46 263 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

冲冲冲c

Flink + Canal的实时数据入湖架构主要存在三个问题。首先，全量与增量数据存在重复，因为采集过程中不会锁表，可能导致在全量采集过程中采集到已变更的数据，从而造成数据重复。其次，需要下游进行Upsert或Merge写入来剔除重复数据，增加了处理复杂度和资源消耗。最后，该架构涉及多个组件（Flink、Canal、Kafka、Spark）和较长的链路，导致资源消耗大且难以维护。

2024-08-19 16:05:19

赞同 3 展开评论

问答分类：

流计算 canal 实时计算 Flink版

问答标签：

实时计算 Flink版架构 flink数据入湖架构 flink数据湖构建实时计算 Flink版数据入湖实时计算 Flink版canal

问答地址：

开发者社区 > 大数据 > 问答

相关问答

OceanBase Canal 和 Flink CDC 拉取 OceanBase 增量日志上有什么？

265

1

0

OceanBase Canal 和Flink CDC在拉取Ocean Base增量日志上有什么不同？

337

1

0

Flink 集群的部署架构如何支持容灾和透明切流？

236

1

0

阿里实时计算平台在架构演进上有什么变化？

244

1

0

Flink Table Store目前架构提供的两个核心价值是什么？

139

1

0

Flink Table Store的短期架构相比完整架构缺少了什么？

149

1

0

在Flink Table Store的架构中，Coordinator主要负责什么？

147

1

0

企业级应用系统体系架构中的Hadoop，Strom和Spark之间有什么关系吗？

1075

1

0

企业级应用系统体系架构中每个服务之间是直接交互的吗？

866

1

0

企业级应用SOA架构相关的ServiceMix是什么？

754

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于国际版和国内版客户端购买套餐问题

Pro试用版是只有300的Credits么？

Qoder REPO WIKI使用优化

Qoder Work是个好家伙，但是什么时候能支持自定义模型API？

idea qoder cn报错

相关文章

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

相关解决方案

更多

云上高可用架构

Flink 与 Hologres 搭建实时数仓

高效实现前后端分离架构升级

Flink CDC 实现企业级实时数据同步

低成本、高性能的湖仓一体化架构

还有其他疑问?