文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC本地做多流JOIN也要看下场景吧？

Flink CDC本地做多流JOIN也要看下场景吧？如果存几天的数据还行，太久了数据量大也不太好

展开

收起

真的很搞笑 2023-11-01 14:52:03 240 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在使用Flink CDC进行本地多流JOIN操作时，确实需要考虑一些因素。其中一个关键的因素就是数据量。对于较大数据集，本地JOIN可能会变得非常慢且效率低下，因为它必须在单台机器上完成所有的计算。
为了缓解这种情况，可以采取几种策略：
- 尽量减小数据集大小。这可以通过使用窗口函数或其他预处理方法实现。
- 使用分布式存储系统。这样可以让JOIN操作在多台机器之间分布，从而提高性能。
- 使用特殊的JOIN算法。例如，Broadcast JOIN可以使较小的数据集广播到每个任务中，从而加快JOIN速度。
2023-11-02 14:39:31

赞同 1 展开评论
sunrr

您好，对于Flink CDC在本地做多流JOIN的问题，确实需要根据实际业务场景来选择适合的操作方式。如果数据量不大且存储时间不长，可以选择基于实时计算引擎在流上进行多个数据源的JOIN操作。这种方式可以满足实时性要求较高的业务需求。

然而，如果数据量较大或者需要长期存储，那么需要注意存储和查询压力的问题。在这种情况下，可以考虑使用窗口JOIN的方式，例如时间窗口联结、事件时间窗口联结等。这种方式可以在窗口触发计算时执行JOIN操作，避免了长时间作业的数据缓存和查询压力。

此外，Flink还支持窗口上的多流合并，即在一个窗口中按照相同条件对两个输入数据流进行关联操作。这种方式需要保证输入的Stream要构建在相同的Window上，并使用相同类型的Key作为关联条件。

2023-11-02 14:39:34

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版cdc场景实时计算 Flink版场景实时计算 Flink版join 实时计算 Flink版cdc join

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

请问flink sql 事件时间 Temporal Join 不触发计算

425

9

0

Flink CDC有没有集群升级或者中间遇到问题要重启的场景线上很多任务是怎么启动？

302

4

0

flink sql cdc现在支持interval join嘛？

315

0

0

Flink有这个场景的语法demo吗？

199

1

0

Flink多流部分列更新场景，某条流出现delete操作会转化成最终sink大宽表的update吗？

252

1

0

Flink CDC 的应用场景有哪些？

226

1

0

ogg能用于oracle同步mysql这样的场景吗？

244

1

0

想问下有没有大佬尝试过Flink SQL，在kinit场景下批写hive表的呢？

166

1

0

Flink的LOOKUP JOIN 支持子查询吗？

214

1

0

这种场景阿里云flink引擎有计划吗？

190

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

广告竞价为什么要拼毫秒级速度？揭秘 RTB 实时广告系统背后的数据流水线设计

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink CDC 能适配达梦不？

Flink cdc sqlserver 希望不同步某些数据行

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

展开全部

还有其他疑问?