文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC本地做多流JOIN也要看下场景吧？

Flink CDC本地做多流JOIN也要看下场景吧？如果存几天的数据还行，太久了数据量大也不太好

展开

收起

真的很搞笑 2023-11-01 14:52:03 232 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在使用Flink CDC进行本地多流JOIN操作时，确实需要考虑一些因素。其中一个关键的因素就是数据量。对于较大数据集，本地JOIN可能会变得非常慢且效率低下，因为它必须在单台机器上完成所有的计算。
为了缓解这种情况，可以采取几种策略：
- 尽量减小数据集大小。这可以通过使用窗口函数或其他预处理方法实现。
- 使用分布式存储系统。这样可以让JOIN操作在多台机器之间分布，从而提高性能。
- 使用特殊的JOIN算法。例如，Broadcast JOIN可以使较小的数据集广播到每个任务中，从而加快JOIN速度。
2023-11-02 14:39:31

赞同 1 展开评论
sunrr

您好，对于Flink CDC在本地做多流JOIN的问题，确实需要根据实际业务场景来选择适合的操作方式。如果数据量不大且存储时间不长，可以选择基于实时计算引擎在流上进行多个数据源的JOIN操作。这种方式可以满足实时性要求较高的业务需求。

然而，如果数据量较大或者需要长期存储，那么需要注意存储和查询压力的问题。在这种情况下，可以考虑使用窗口JOIN的方式，例如时间窗口联结、事件时间窗口联结等。这种方式可以在窗口触发计算时执行JOIN操作，避免了长时间作业的数据缓存和查询压力。

此外，Flink还支持窗口上的多流合并，即在一个窗口中按照相同条件对两个输入数据流进行关联操作。这种方式需要保证输入的Stream要构建在相同的Window上，并使用相同类型的Key作为关联条件。

2023-11-02 14:39:34

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版cdc场景实时计算 Flink版场景实时计算 Flink版join 实时计算 Flink版cdc join

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink大概什么样的场景会需要用到流批一体？一边处理实时流，一边批处理历史数据

286

1

0

flink cdc sql将一个source，sink到pg和kafka，这种场景支持吗?

345

0

0

如果使用flink sql的left join，右表出现部分关联不上的情况，应该怎么处理好？

1191

2

0

Flink CDC有没有集群升级或者中间遇到问题要重启的场景线上很多任务是怎么启动？

300

4

0

请问Flink这种场景怎么处理？

156

1

0

Flink CDC一个场景中需要关联十几张表并聚合，每次变更都会更新到Kafka很多数据？

260

1

0

目前Flink在中移的实时计算平台中主要用于哪些场景？

141

1

0

Flink多流部分列更新场景，某条流出现delete操作会转化成最终sink大宽表的update吗？

248

1

0

Flink常见的序列化应用场景有哪些

242

1

0

Flink CDC里有用过cdc+doris实时更新，增删改的业务场景吗？

241

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云Kafka一键入湖技术详解：Iceberg+OSS Table Bucket落地方案

阿里云检索分析服务Elasticsearch版对接使用全攻略

专访｜GEO落地工程师罗长才：解析GEO与低时延通信、算网基础设施的协同赋能逻辑

阿里云表格存储Tablestore对接使用完全指南：从入门到实战

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

flinkcdc在IDEA运行正常，打包就报错

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

Flink CDC里这个问题怎么解决？

咨询下各位大佬，用Flink CDC 2.2.0同步MYSQL数据库，库表是latin1编码的时候？

如何用实时数据同步打破企业数据孤岛？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

展开全部

还有其他疑问?