备案控制台

开发者社区问答正文

为什么要在shuffer之前执行map-join，提前将数据进行聚合？

为什么要在shuffer之前执行map-join，提前将数据进行聚合？

展开

收起

游客ysk6odvtzspxs 2021-12-05 09:07:24 611 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客fdypabnykn7yk

一是为了避免将多数相同的key流入相同的reduce-task中，导致数据倾斜；二是为了执行过程的高效，节省资源，充分利用资源，将在有限的资源里面做最有效的工作。

2021-12-05 09:08:37

赞同展开评论

问答标签：

Map数据 Map数据聚合

问答地址：

开发者社区 > 云计算 > 问答

相关问答

请问一下，flink有办法让上游数据均匀分配到下游的map算子么，试了下shuffle和rebal？

279

3

0

datawork api看文档返回的是个map，如果我一次性要查很多条数据，该怎么用？

209

12

0

flink cdc 写代码的方式接收数据-map操作-sink到表是导入那个Maven依赖啊？

120

0

0

为什么nacos-当配置存在map类型，移除元素无效，保留的还是原来的数据怎么办？

221

0

0

大数据计算MaxCompute跑数据 44分钟跑了 41% 的map ，有没有好的建议啊？

90

0

0

MaxCompute中Json格式映射Map格式数据

117

1

0

flinkcdc中Mongo列数据为Object类型，用Map<STRING,STRING>行吗？

109

1

0

应用研发平台EMAS中收集到报错以后，返回的自定义map可以在控制台的哪里看到上传的数据呢？

108

1

0

Flink 从kafka中消费到数据到map里每条转换json对象太耗时，有什么好的解决办法吗？

241

2

0

Flink cdc接oceanBase数据，初始化的时候jdbcFields格式为Map<？

113

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

还有其他疑问?