文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink随机数的情况下windcunt=90 这种怎么还有数据倾斜，有碰到类似情况的吗?

Flink随机数的情况下windcunt=90 这种怎么还有数据倾斜，并且很稳定的是31个ts一直是0，有碰到类似情况的吗?

展开

收起

真的很搞笑 2023-09-05 16:58:44 171 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

哈哈是我

在Flink中，即使使用随机数作为key进行操作，也有可能出现数据倾斜的情况。数据倾斜是指在分布式计算中，某些特定的key或分区数据量远大于其他key或分区数据量的情况。

数据倾斜可能由于多种原因引起，例如数据分布不均匀、哈希函数不均衡、数据倾斜的特点等。即使你使用了随机数作为key，但在某些情况下，仍然可能导致数据倾斜。

对于你提到的情况，其中31个ts一直是0的情况可能是由于特定的数据分布导致的。可能有一些特定的数据集中在这31个ts上，导致它们始终是0。

解决数据倾斜的方法可以尝试以下几种：

增加并行度：通过增加任务的并行度，将数据分摊到更多的任务中，减少每个任务的数据压力。

重新分区：如果数据倾斜主要来源于特定的key或分区，可以尝试重新分区，使数据更加均匀分布。

使用合适的key选择策略：可以尝试使用更合适的key选择策略，使数据更加均匀地分布到不同的key上。

使用负载均衡算法：可以考虑使用负载均衡算法来调度任务或资源，以使数据更均匀地分布到不同的任务或节点上。

数据预处理：如果数据倾斜的原因是源数据的分布不均匀，可以在数据进入流处理前进行预处理，将数据进行分散或重点平衡。

请注意，解决数据倾斜的方法因具体情况而异，需要根据实际场景和数据特点进行调整。以上方法仅供参考，具体应根据实际情况选择合适的解决方案。

2023-10-18 14:59:06

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据倾斜

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

咨询一个Flink问题，非开窗，非聚合的数据倾斜咋优化呀?

336

0

0

双十一这种场景，Flink如何提前预防数据倾斜呢？

225

1

0

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

294

1

0

Flink SQL 如何解决 Group Window Aggregate 中的数据倾斜问题？

419

1

0

Flink datastream任务对接kafka出现数据倾斜

325

1

0

咨询一个Flink问题，非开窗，非聚合的数据倾斜有什么优化思路？

230

1

0

请问Flink CDC这是数据倾斜吗？我发现被压有点搞在定义source？

300

1

0

Flink CDC这种算数据倾斜不？

179

0

0

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？

579

2

0

Flink CDC多张流表进行join产生的数据倾斜如何处理和优化的？

953

2

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

广告竞价为什么要拼毫秒级速度？揭秘 RTB 实时广告系统背后的数据流水线设计

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

Flink 与 Hologres 搭建实时数仓

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC底层监听是不是用到flink定时任务还是啥？

Flink cdc sqlserver 希望不同步某些数据行

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

flinkcdc在IDEA运行正常，打包就报错

展开全部

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

流计算精品翻译: The Dataflow Model

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

使用 Kafka 和 Flink 构建实时数据处理系统

Flink: 实时规则引擎助力新零售发展

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

携程实时智能检测平台建设实践

展开全部

还有其他疑问?