文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

展开

收起

真的很搞笑 2023-08-01 14:36:54 250 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 进行 Join 和聚合操作会对源数据库产生一定的压力，具体压力大小取决于使用的 Join 和聚合算法、数据量和数据分布等因素。

在 Flink 中，Join 和 Lookup 是两种不同的操作，它们的实现方式和对源数据库的压力也不同。

Join
Join 操作是将两个或多个数据流或表按照某个条件进行关联，获取相关联的数据。在 Flink 中，Join 操作通常是通过在内存中构建哈希表或排序合并等算法实现的，因此 Join 操作通常需要较大的内存和计算资源。

对于源数据库来说，Join 操作通常需要从多个表中获取数据，可能需要执行复杂的 SQL 语句，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以优化 Join 操作的条件、选择需要关联的列等。

Lookup
Lookup 操作是从外部数据源（例如数据库或缓存）中查找数据，并将查找到的数据与当前数据流或表进行关联。在 Flink 中，Lookup 操作通常是通过异步 I/O 或者异步查询实现的，因此对于外部数据源的压力相对较小。

对于源数据库来说，Lookup 操作通常是通过查询一个或多个表获取数据，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以使用缓存技术、优化数据库查询语句等。

需要注意的是，Join 和 Lookup 操作都需要从外部数据源获取数据，因此都需要一定的时间延迟。为了减少延迟，可以适当提高查询的并发度、增加查询缓存等。

总的来说，Join 和 Lookup 操作都会对源数据库产生一定的压力，但是可以通过优化 Join 和 Look

2023-08-01 23:15:29

赞同展开评论
芯在这

看你拿多少数据量的问题，join本身没压力，但是你如果是look up这种需要从维度表数据库拿数据，这里需要看拿多少数据，look up join，lookup是每次查的时候会更新，join只服务一次加载到任务，此回答整理自钉群“Flink CDC 社区”

2023-08-01 14:49:15

赞同展开评论

问答分类：

数据库流计算实时计算 Flink版

问答标签：

数据库区别实时计算 Flink版CDC 数据库join 实时计算 Flink版数据库实时计算 Flink版cdc数据库

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink作业Currently Redis table can only be lookup...

210

1

0

flink1.17.2的 flink sql的lookup join支持对维表字段的过滤吗?

276

1

0

flinkcdc1.13版本自定义实现connector，join流有输入，但是没有输出，怎么解决？

227

1

0

有人遇到Flink CDC里 mysql作为维表 lookup join where条件不生效嘛？

192

1

0

flink在使用lookup join的时候join的表可以使用子查询吗?我尝试了几种写法都不行

170

0

0

在Flink CDC中，flink sql lookup join 不支持维表的where 条件嘛？

198

1

0

Flink sql cdc 增量聚合有文档吗？比如说基于CDC，算交易额的汇总

157

1

0

Flink MySQL不支持定义Watermark如何进行窗口聚合

175

1

0

Flink下游业务系统能不能每5分钟聚合一次，不要实时去聚合查询？

132

1

0

请教一下Flink lookup join的表使用starrocks表合适吗？

407

5

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云2026弹性计算页活动说明：68元轻量服务器与99元e实例测评

阿里云新用户条件是什么？2026新用户购买阿里云产品有哪些优惠政策？

阿里云 2026 特价服务器测评：38 元轻量 / 99元/199元ECS实例

Agentic Memory 实践：用 agents.md 实现 LLM 持续学习

阿里云ECS云服务器、轻量服务器、GPU云服务器 2026 新版收费标准说明

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC有知道Mac m1下的docker 环境如何开启sqlserver代理吗？

flink cdc 可以支持达梦数据库么？

Flink CDC我想给rocksdb配个存储路径，启动的时候为啥会报不支持相对路径呢？

Flink CDC写 PG，列为数组，为什么？

Flink CDC 里生产突然就报这个了，然后，重启任务还是抓不到变动了怎么办？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

在Flink CDC中抽取数据凌晨失败了白天重启任务它还从之前零点失败时候的点位开始消费？

有人用flink mysql cdc + doris的吗，怎么捕获入库失败被fliter的数据？

在Flink CDC中Pipeline为什么只有在提交任务的时候才会同步变动的数据不会同步?

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

展开全部

还有其他疑问?