备案控制台

开发者社区问答正文

flink keyby之后数据倾斜的问题

hello everyone！

向大家求助一个使用keyby后导致数据倾斜的问题。

背景：使用flink streamAPI进行数据处理和提取，结果写入物理存储。处理后会将数据量放大10倍左右。

考虑到其中有大量重复数据，使用flink状态根据id进行精确去重。去重前使用keyby id对数据进行分区。

问题：目前keyby之后会产生数据倾斜，切斜比例高:低≈3:1，各位大佬有什么好的方案处理这个问题吗？*来自志愿者整理的flink邮件归档

展开

收起

彗星halation 2021-12-02 17:49:19 1689 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

EXCEED

Flink SQL 里已经内置了很多解倾斜的方式，例如 local global 聚合。详见 [1]，如果一定要使用 streaming api

可以参考该思路进行优化。

[1]

https://ci.apache.org/projects/flink/flink-docs-master/zh/docs/dev/table/tuning/#local-global-%e8%81%9a%e5%90%88*来自志愿者整理的FLINK邮件归档

2021-12-02 18:00:00

赞同展开评论

问答分类：

存储数据处理流计算实时计算 Flink版

问答标签：

实时计算 Flink版keyby 实时计算 Flink版数据倾斜实时计算 Flink版keyby数据倾斜

问答地址：

开发者社区 > 大数据 > 问答

相关问答

咨询一个Flink问题，非开窗，非聚合的数据倾斜咋优化呀?

204

0

0

flinkcdc keyby 之后同一key在一个slot吗？

312

1

0

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

185

1

0

Flink SQL 如何解决 Group Window Aggregate 中的数据倾斜问题？

300

1

0

Flink datastream任务对接kafka出现数据倾斜

235

1

0

Flink DataStream keyby以后reduce，如果只想保留最后的结果有什么好办法吗？

177

1

0

Flink中keyby以后是按照每个key值分别开窗吧？不同key值的窗口是互不影响的对吗？

134

1

0

咨询一个Flink问题，非开窗，非聚合的数据倾斜有什么优化思路？

149

1

0

Flink 这个对应的场景是，keyBy分组，然后进行反序列化的时候报错，请问这个有人知道为啥吗？

227

0

0

Flink CDC 里mysql source并发度大于1，在每个keyby分区里面数据是排序的吗？

115

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

notebook启动安全验证一直失败

vllm部署模型，参数如何指定

请教一下，我4张a6000可以部署什么好点的模型

通义灵码的idea插件，在Mac系统下，idea版本2025.3.1，idea打开通义灵码插件花屏

运行qwen-image显示Reconnecting

相关文章

最新阿里云服务器2核8G年付活动价格：经济型757.39元起，通用算力型701.40元起，通用型2394.52元起

基于MATLAB的协同过滤推荐算法实现

阿里云服务器4核16G最新年付活动价格：经济型e实例2174.57元起，通用算力型u2a实例1291.80元起

阿里云服务器怎么选择？2026年阿里云 ECS 实例选型新手指南

神经辐射场NeRF入门：3D视图合成的原理与PyTorch代码实现

还有其他疑问?