文档备案控制台

开发者社区问答正文

有什么方法可以解决Hadoop MapReduce和早期Spark在shuffle过程中的问题？

有什么方法可以解决Hadoop MapReduce和早期Spark在shuffle过程中的问题？

展开

收起

游客fbdr25iajcjto 2021-12-06 21:21:24 811 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客7ygkl73u5msna

1) 将map任务给每个partition的reduce任务输出的bucket合并到同一个文件中，这解决了bucket数量很多，但是本身数据体积不大时，造成shuffle很频繁，磁盘I/O成为性能瓶颈的问题；

2) map任务逐条输出计算结果，而不是一次性输出到内存，并使用AppendOnlyMap缓存及其聚合算法对中间结果进行聚合，这大大减小了中间结果所占的内存大小；

3) 对SizeTrackingAppendOnlyMap和SizeTrackingPairBuffer等缓存进行溢出判断，当超出myMemoryThreshold的大小时，将数据写入磁盘，防止内存溢出；

4) reduce任务对拉取到的map任务中间结果逐条读取，而不是一次性读入内存，并在内存中进行聚合和排序(其本质上也使用了AppendOnlyMap缓存)，这也大大减小了数据占用的内存；

5) reduce任务将要拉取的Block按照BlockManager地址划分，然后将同一BlockMananger地址中的Block累积为少量网络请求，减少网络I/O。

2021-12-06 21:40:37

赞同展开评论

问答分类：

分布式计算 Hadoop Spark

问答标签：

hadoop spark hadoop apache spark mapreduce shuffle apache spark Mapreduce apache spark shuffle

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce Hadoop类型集群的ranger-plugin中没有enablehi...

168

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

317

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

130

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

136

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

362

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

145

1

0

E-MapReduce集群在进行Hadoop到StarRocks的迁移过程中如何开启支持UDF...

201

1

0

E-MapReduce集群Hadoop-common和EmrRuntime服务无状态是否需要进...

82

1

0

ECS自建Hadoop集群迁移到E-MapReduce是否需要停机

133

1

0

E-MapReduce如何让hadoop的服务端口暴露在公网上

129

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

已经实名，但免费API无法使用

个人专业版如何购买

阿里云如何部署使用OpenClaw？OpenClaw部署一看就会：零基础零代码、纯点击

阿里的Coding Plan到底想干啥，模型居然没有搜索能力

阿里云ECS 手动部署 OpenClaw 超详细教程（2026最新版）

相关文章

Cisco Expressway Release X15.4.0 - 统一通信网关

Spark SQL练习1-电商用户行为分析

Spark SQL练习2-电商用户行为分析

无需复杂编码：MaxCompute SQL AI 轻松搞定业务难题

MD5在线加密核心JS实现

还有其他疑问?