文档备案控制台

开发者社区问答正文

MapReduce中的Map端的Shuffle是什么？

MapReduce中的Map端的Shuffle是什么？

展开

收起

游客daliwbfb2wo66 2021-12-04 21:35:56 569 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客k7rjnht6hbtk6

Map函数开始产生输出时，并不是简单地把数据写到磁盘，因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂，数据首先写到内存中的一个缓冲区，并做一些预排序，以提升效率；每个MapTask都有一个用来写入输出数据的循环内存缓冲区（默认大小为100MB），当缓冲区中的数据量达到一个特定阈值时（默认是80%）系统将会启动一个后台线程把缓冲区中的内容写到磁盘（即spill阶段）。在写磁盘过程中，Map输出继续被写到缓冲区，但如果在此期间缓冲区被填满，那么Map就会阻塞直到写磁盘过程完成；在写磁盘前，线程首先根据数据最终要传递到的Reducer把数据划分成相应的分区（partition）。在每个分区中，后台线程按Key进行排序（快速排序），如果有一个Combiner（即Mini Reducer）便会在排序后的输出上运行；一旦内存缓冲区达到溢出写的阈值，就会创建一个溢出写文件，因此在MapTask完成其最后一个输出记录后，便会有多个溢出写文件。在在MapTask完成前，溢出写文件被合并成一个索引文件和数据文件（多路归并排序）（Sort阶段）；溢出写文件归并完毕后，Map将删除所有的临时溢出写文件，并告知TaskTracker任务已完成，只要其中一个MapTask完成，ReduceTask就开始复制它的输出（Copy阶段）； Map的输出文件放置在运行MapTask的TaskTracker的本地磁盘上，它是运行ReduceTask的TaskTracker所需要的输入数据，但是Reduce输出不是这样的，它一般写到HDFS中（Reduce阶段）。

2021-12-04 21:36:11

赞同展开评论

问答分类：

分布式计算

问答标签：

mapreduce shuffle mapreduce map Map shuffle Map mapreduce 开源大数据平台 E-MapReduce shuffle

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce执行任务有个别map一直卡住

212

1

0

请问一下，flink有办法让上游数据均匀分配到下游的map算子么，试了下shuffle和rebal？

341

3

0

DataWorks中M 开头的是 map 阶段，这种 J 开头的是 shuffle 阶段吗？

163

2

0

map函数中为什么忽略键？map函数输出什么时候由MapReduce框架处理呀？

556

1

0

MapReduce中抽取年份和气温map和reduce分别是做什么的？

564

1

0

MapReduce中map阶段的输出是什么呢？键是什么？

662

1

0

类中MapReduce的工作原理是什么？map阶段和reduce阶段共同点是什么？

662

1

0

E-MapReduce集群KAFKA指标介绍

172

1

0

E-mapreduce集群新增task节点组是否会导致数据丢失？

123

0

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

162

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云千问大模型是什么？2026年阿里云千问大模型优惠活动说明

阿里云百炼Coding Plan显示售罄，抢不到怎么办？来看替代方案！

阿里云ECS怎么部署OpenClaw？阿里云手动部署 OpenClaw 超详细流程（2026最新版）

【最新】阿里云服务器多少钱？近期阿里云服务器最新价格表曝光！

阿里云百炼Coding Plan订阅套餐是什么？有哪些购买方式、使用规则与合规注意事项

相关文章

Cisco Expressway Release X15.5.0 - 统一通信网关

Java并发工具包的精髓——从锁到队列再到原子变量

阿里云非特价云服务器有哪些？经济型e实例3.9折，通用算力型u2i实例3折，九代云服务器6.4折优惠

阿里云大数据 AI 产品月刊-2026年3月

大数据分析：如何高效查询海量IP归属地？

还有其他疑问?