25 MAPREDUCE的shuffle机制-阿里云开发者社区

25 MAPREDUCE的shuffle机制

2023-11-01 359

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 25 MAPREDUCE的shuffle机制

概述

mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；

shuffle: 洗牌、发牌——（核心机制：数据分区，排序，缓存）；

具体来说：就是将maptask输出的处理结果数据，分发给reducetask，并在分发的过程中，对数据按key进行了分区和排序；

主要流程

Shuffle缓存流程：

shuffle是MR处理流程中的一个过程，它的每一个处理步骤是分散在各个map task和reduce task节点上完成的，整体来看，分为3个操作：

1、分区partition

2、Sort根据key排序

3、Combiner进行局部value的合并

详细流程

1、maptask收集我们的map()方法输出的kv对，放到内存缓冲区中。

2、从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件。

3、多个溢出文件会被合并成大的溢出文件。

4、在溢出过程中，及合并的过程中，都要调用partitoner进行分组和针对key进行排序。

5、reducetask根据自己的分区号，去各个maptask机器上取相应的结果分区数据。

6、reducetask会取到同一个分区的来自不同maptask的结果文件，reducetask会将这些文件再进行合并（归并排序）。

7、合并成大文件后，shuffle的过程也就结束了，后面进入reducetask的逻辑运算过程（从文件中取出一个一个的键值对group，调用用户自定义的reduce()方法）。

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。

缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认100M。

25 MAPREDUCE的shuffle机制

概述

主要流程

详细流程

详细流程示意图

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

25 MAPREDUCE的shuffle机制

概述

主要流程

详细流程

详细流程示意图

热门文章

最新文章

相关课程

相关电子书