在map端溢出分区文件和reduce端合并组合有几种情况？

三种情况，分别是： bypassMergeSort标记是否传递到reduce端再做合并和排序。

1.此种情况不使用缓存，而是先将数据按照partition写入不同文件，最后按partition顺序合并写入同一文件。当没有指定聚合、排序函数，且partition数量较小时，一般采用这种方式。此种方式将多个bucket合并到同一个文件，通过减少map输出的文件数量，节省了磁盘I/O，最终提升了性能，

2 在map端简单缓存、排序分组，在reduce端合并组合

此种情况在缓存中利用指定的排序函数对数据按照partition或者key进行排序，最后按partition顺序合并写入同一文件。当没有指定聚合函数，且partition数量大时，一般采用这种方式，见如下图。此种方式将多个bucket合并到同一个文件，通过减少map输出的文件数量，节省了磁盘I/O，提升了性能；对SizeTrackingPairBuffer的缓存进行溢出判断，当超过myMemoryThreshold的大小时，将数据写入磁盘，防止内存溢出。

3在map端缓存中聚合、排序分组，在reduce端组合

此种情况在缓存中对数据按照key聚合，并且利用指定的排序函数对数据按照partition或者key进行排序，最后按partition顺序合并写入同一文件。当指定了聚合函数时，一般采用这种方式，见如下图。此种方式将多个bucket合并到同一个文件，通过减少map输出的文件数量，节省了磁盘I/O，提升了性能；对中间输出数据不是一次性读取，而是逐条放入AppendOnlyMap的缓存，并对数据进行聚合，减少了中间结果占用的内存大小；对AppendOnlyMap的缓存进行溢出判断，当超出myMemoryThreshold的大小时，将数据写入磁盘，防止内存溢出。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

在map端溢出分区文件和reduce端合并组合有几种情况？