文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

展开

收起

真的很搞笑 2023-08-01 14:36:54 321 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 进行 Join 和聚合操作会对源数据库产生一定的压力，具体压力大小取决于使用的 Join 和聚合算法、数据量和数据分布等因素。

在 Flink 中，Join 和 Lookup 是两种不同的操作，它们的实现方式和对源数据库的压力也不同。

Join
Join 操作是将两个或多个数据流或表按照某个条件进行关联，获取相关联的数据。在 Flink 中，Join 操作通常是通过在内存中构建哈希表或排序合并等算法实现的，因此 Join 操作通常需要较大的内存和计算资源。

对于源数据库来说，Join 操作通常需要从多个表中获取数据，可能需要执行复杂的 SQL 语句，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以优化 Join 操作的条件、选择需要关联的列等。

Lookup
Lookup 操作是从外部数据源（例如数据库或缓存）中查找数据，并将查找到的数据与当前数据流或表进行关联。在 Flink 中，Lookup 操作通常是通过异步 I/O 或者异步查询实现的，因此对于外部数据源的压力相对较小。

对于源数据库来说，Lookup 操作通常是通过查询一个或多个表获取数据，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以使用缓存技术、优化数据库查询语句等。

需要注意的是，Join 和 Lookup 操作都需要从外部数据源获取数据，因此都需要一定的时间延迟。为了减少延迟，可以适当提高查询的并发度、增加查询缓存等。

总的来说，Join 和 Lookup 操作都会对源数据库产生一定的压力，但是可以通过优化 Join 和 Look

2023-08-01 23:15:29

赞同展开评论
芯在这

看你拿多少数据量的问题，join本身没压力，但是你如果是look up这种需要从维度表数据库拿数据，这里需要看拿多少数据，look up join，lookup是每次查的时候会更新，join只服务一次加载到任务，此回答整理自钉群“Flink CDC 社区”

2023-08-01 14:49:15

赞同展开评论

问答分类：

数据库流计算实时计算 Flink版

问答标签：

数据库区别实时计算 Flink版CDC 数据库join 实时计算 Flink版数据库实时计算 Flink版cdc数据库

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

实时计算Flink输出数据至print结果表和mysql表区别

217

1

0

Flink作业Currently Redis table can only be lookup...

322

1

0

flink cdc source connector 分为普通cdc版本和sql版本有什么区别？

457

2

0

flink1.17.2的 flink sql的lookup join支持对维表字段的过滤吗?

401

1

0

有人遇到Flink CDC里 mysql作为维表 lookup join where条件不生效嘛？

304

1

0

flink在使用lookup join的时候join的表可以使用子查询吗?我尝试了几种写法都不行

259

0

0

在Flink CDC中，这两个配置文件有啥区别啊?

229

1

0

在Flink CDC中，flink sql lookup join 不支持维表的where 条件嘛？

289

1

0

Flink sql cdc 增量聚合有文档吗？比如说基于CDC，算交易额的汇总

238

1

0

在Flink CDC中，Flink-cdc 支持国产-优炫数据库么？

607

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

时序数据是什么？2026年企业为什么离不开时序数据库

阿里云 Tair vs 原生开源 Redis：企业级内存数据库深度对比

同一个问题问AI两次，答案居然不一样？别慌，问题出在这5个地方

Claude Code 接入 Grok-4.5

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

自建数据库迁移到云数据库

Flink 与 Hologres 搭建实时数仓

通过 RDS 读写分离提升数据库性能

千问+Vanna：让数据库听懂人话

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink cdc sqlserver 希望不同步某些数据行

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

Flink CDC 能适配达梦不？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

深入了解 Flink 网络栈（二）：监控、指标和处理背压

Flink: 快速构建统一的实时日志平台

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于 Flink 构建 CEP 引擎的挑战和实践

展开全部

还有其他疑问?