备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

flinksql中 join时由于key不均匀导致的数据倾斜大佬们都是怎么处理的

展开

收起

游客6vdkhpqtie2h2 2022-09-20 06:46:55 1087 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

TiAmoZhang

CSDN全栈领域优质创作者，万粉博主；InfoQ签约博主；华为云享专家；华为Iot专家；亚马逊人工智能自动驾驶（大众组）吉尼斯世界纪录获得者
在 Flink SQL 中，当您使用 JOIN 操作连接两个表时，如果两个表的键不均匀，可能会导致数据倾斜。这是因为 Flink SQL 在执行 JOIN 操作时，会将较小的表复制到一个临时表中，然后对这个临时表进行 JOIN 操作。由于小表中的数据量较少，可能导致计算结果不均衡。

以下是一些处理方法：
1. 增加较小表的分区数：通过增加较小表的分区数，可以使每个分区的数据量更少，从而减少数据倾斜的可能性。例如，您可以将较小表按照某个字段进行分区，并在 Flink SQL 中指定分区数。
2. 调整 JOIN 条件：您可以尝试调整 JOIN 条件，以便在较小表中查找更多的匹配项。例如，如果您正在使用 INNER JOIN,并且较小表中有重复值，则可以尝试使用 LEFT JOIN,这样可以避免删除较小表中的行。
3. 使用 Coalesce 函数：Coalesce 函数可以将一组具有相同值的键合并为一个键。您可以使用 Coalesce 函数来将较小表中的键替换为一个唯一的键值，从而使数据更均衡。例如，如果您正在使用 INNER JOIN,并且较小表中有重复值，则可以使用以下语句：SELECT COALESCE(a.id, b.id) AS id FROM table1 a INNER JOIN table2 b ON a.key = b.key
4. 使用 Keyed Window:Flink SQL 支持基于时间的窗口函数，例如 TumblingEventTimeWindows、ProcessingTimeWindows 等。您可以使用这些窗口函数来控制数据的分配和计算顺序，从而减少数据倾斜的可能性。例如，您可以在 TumblingEventTimeWindows 中指定较小表的键值作为分组键，并在计算时按照分组键进行排序和聚合。
2023-05-09 14:32:54

赞同 1 展开评论

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

this xml file does not appear to have any style in

50260

10

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

130183

28

0

请问下我访问接口不通什么原因 Provisional headers are shown

2642

0

0

手机弹出支付风险问题

6793

2

0

购买阿里国外的云服务器是否可以访问谷歌？

81867

47

0

计算机网络的频带传输是什么意思？

1919

1

0

OSS的endpoint如何查看

36818

6

0

配置了安全组规则，端口还是无法访问

32747

25

0

sql server的用户名和密码怎么查啊？

36369

21

0

网站建设

1298

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199213

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Flink CDC 3.5 正式发布，新增 PostgreSQL Source 和 Fluss Sink 连接器

阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新，共筑基于 Apache Flink Agents 的智能体 AI 未来

Flink Agents 0.1.0 发布公告

云栖实录｜实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

debezium的配置是在代码里面如何添加进去的呢

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

在斗鱼，实时计算发展的历程如何？

请问如何用flink sql客户端用yarn application模式提交任务呢？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Apache Flink未授权访问上传导致的RCE漏洞，这个漏洞目前方案解决吗？

在Flink CDC中ogg可以做实时同步吗？

这个错误有什么好的解决方法吗

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

展开全部

还有其他疑问?