文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？？

图片.png

展开

收起

wenti 2023-02-07 15:13:13 578 版权

2 条回答

写回答

取消提交回答

认真学习的heart

我想到四个方法，你可以去试一下

将数据进行重分区，使用HashPartitioner或者RangePartitioner。

使用Flink的Rebalance算子，将数据重新分发到不同的TaskManager上

使用Flink的CoGroup算子，将多张流表进行join操作

使用Flink的MapPartition算子，将多张流表进行join操作

2023-02-08 07:59:14

赞同展开评论
665661

flink有个重分区的算子，不过你先调研一下是哪些数据发生数据倾斜呀——该回答整理自钉群“【③群】Apache Flink China社区”

2023-02-07 17:01:44

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版优化实时计算 Flink版join 实时计算 Flink版数据倾斜实时计算 Flink版流表实时计算 Flink版流表join

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

未来如何优化 Flink CDC OceanBase Connector 的数据读取？

192

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

291

在Hudi on Flink的初期使用中，你们遇到了哪些问题，并与Hudi社区一起进行了哪些优化？

196

在Flink CDC中，有什么方法优化吗？是否只能加资源?

247

在Flink CDC中，paimon sink 能够优化？

253

在Flink CDC中，线上发现消费速度有点慢，想优化下这俩参数？

214

社区在 Flink 的哪个版本中针对构建执行图的问题进行了优化？

148

在Flink CDC中task的slots分配不均，可以怎么优化？

228

Flink SQL 如何解决 Group Window Aggregate 中的数据倾斜问题？

418

在Flink中将流表数据与Hive维表进行JOIN时，数据是如何被分配到对应subtask的？

227

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？

实时计算 Flink

相关文章

相关解决方案

热门讨论

热门文章