文档备案控制台

开发者社区问答正文

Flink中在使用聚合函数 GroupBy、Distinct、KeyBy 等函数出现数据热点怎么办？

Flink中在使用聚合函数 GroupBy、Distinct、KeyBy 等函数出现数据热点怎么办？

展开

收起

游客4iodw4vsbx244 2021-12-08 16:08:13 904 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客atyyogx5esqqy

数据倾斜和数据热点是所有大数据框架绕不过去的问题。处理这类问题主要从3个方面入手：

在业务上规避这类问题

例如一个假设订单场景，北京和上海两个城市订单量增长几十倍，其余城市的数据量不变。这时候我们在进行聚合的时候，北京和上海就会出现数据堆积，我们可以单独数据北京和上海的数据。

Key的设计上

把热key进行拆分，比如上个例子中的北京和上海，可以把北京和上海按照地区进行拆分聚合。

参数设置

Flink 1.9.0 SQL(Blink Planner) 性能优化中一项重要的改进就是升级了微批模型，即 MiniBatch。原理是缓存一定的数据后再触发处理，以减少对State的访问，从而提升吞吐和减少数据的输出量。

2021-12-08 16:09:22

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版函数实时计算 Flink版keyby 实时计算 Flink版函数数据实时计算 Flink版聚合函数

问答地址：

开发者社区 > 大数据 > 问答

相关问答

实时计算Flink支持哪些聚合函数

77

1

0

flinkcdc keyby 之后同一key在一个slot吗？

314

1

0

Flink高性能DISTINCT函数

138

1

0

Flink SQL能否使用rb_build_agg等聚合函数

92

1

0

Flink DataStream keyby以后reduce，如果只想保留最后的结果有什么好办法吗？

180

1

0

Flink中keyby以后是按照每个key值分别开窗吧？不同key值的窗口是互不影响的对吗？

137

1

0

Flink 这个对应的场景是，keyBy分组，然后进行反序列化的时候报错，请问这个有人知道为啥吗？

232

0

0

Flink CDC 里mysql source并发度大于1，在每个keyby分区里面数据是排序的吗？

116

1

0

Flink有没有什么办法解决keyBy后乱序的问题？

539

2

0

Flink SQL中的DISTINCT的作用是什么？

862

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

API inference endpoint都变成待机态了

modelscope 模型python调用

notebook启动安全验证一直失败

阿里云百炼大模型怎么收费？要钱吗？

相关文章

StarRocks + Paimon：构建 Lakehouse Native 数据引擎

别再纠结了：Lambda 还是 Kappa？流批统一这件事，真没你想得那么玄乎

数据不守规矩怎么办？——聊聊乱序事件的处理策略与实战要点

信任的裂缝：三星 Members 应用内现高危钓鱼攻击，官方生态安全边界再受挑战

数据一边跑，隐私不能裸奔：聊聊流处理里的差分隐私怎么玩

还有其他疑问?