文档备案控制台

开发者社区问答正文

flink keyby之后数据倾斜的问题

hello everyone！

向大家求助一个使用keyby后导致数据倾斜的问题。

背景：使用flink streamAPI进行数据处理和提取，结果写入物理存储。处理后会将数据量放大10倍左右。

考虑到其中有大量重复数据，使用flink状态根据id进行精确去重。去重前使用keyby id对数据进行分区。

问题：目前keyby之后会产生数据倾斜，切斜比例高:低≈3:1，各位大佬有什么好的方案处理这个问题吗？*来自志愿者整理的flink邮件归档

展开

收起

彗星halation 2021-12-02 17:49:19 1719 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

EXCEED

Flink SQL 里已经内置了很多解倾斜的方式，例如 local global 聚合。详见 [1]，如果一定要使用 streaming api

可以参考该思路进行优化。

[1]

https://ci.apache.org/projects/flink/flink-docs-master/zh/docs/dev/table/tuning/#local-global-%e8%81%9a%e5%90%88*来自志愿者整理的FLINK邮件归档

2021-12-02 18:00:00

赞同展开评论

问答分类：

存储数据处理流计算实时计算 Flink版

问答标签：

实时计算 Flink版keyby 实时计算 Flink版数据倾斜实时计算 Flink版keyby数据倾斜

问答地址：

开发者社区 > 大数据 > 问答

相关问答

咨询一个Flink问题，非开窗，非聚合的数据倾斜咋优化呀?

269

0

0

flinkcdc keyby 之后同一key在一个slot吗？

372

1

0

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

228

1

0

Flink SQL 如何解决 Group Window Aggregate 中的数据倾斜问题？

344

1

0

Flink datastream任务对接kafka出现数据倾斜

273

1

0

Flink DataStream keyby以后reduce，如果只想保留最后的结果有什么好办法吗？

231

1

0

Flink中keyby以后是按照每个key值分别开窗吧？不同key值的窗口是互不影响的对吗？

173

1

0

咨询一个Flink问题，非开窗，非聚合的数据倾斜有什么优化思路？

183

1

0

Flink 这个对应的场景是，keyBy分组，然后进行反序列化的时候报错，请问这个有人知道为啥吗？

276

0

0

Flink CDC 里mysql source并发度大于1，在每个keyby分区里面数据是排序的吗？

137

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云千问大模型是什么？2026年阿里云千问大模型优惠活动说明

阿里云百炼Coding Plan订阅套餐是什么？有哪些购买方式、使用规则与合规注意事项

阿里云Coding Plan售罄，抢不到怎么办？阿里云Coding Plan抢购最新方法

阿里云Coding Plan是什么？阿里云Coding Plan详解：Lite/Pro套餐对比、使用

阿里云百炼Coding Plan提示售罄、Lite停售、Pro难抢，怎么办？最新解决方案总结

相关文章

OpenClaw Windows 一键部署教程（2026 精简版）

私域直播平台从零搭建

保姆级教程：阿里云服务器配置选择之个人、学生和企业用户，这么选就对了

省钱教程：阿里云优惠券在哪领取？最新云服务器代金券查询及使用限制全攻略

系统科学与哲学方法论

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?