文档备案控制台

开发者社区问答正文

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

展开

收起

芯在这 2021-12-05 21:47:13 648 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

1、map最后阶段进行partition分区，一般使用job.setPartitionerClass设置的类，如果没有自定义Key的hashCode()方法进行分区。在map阶段写出到环形缓冲区，在环形缓冲区溢写时会进行一次排序，每个分区内部调用job.setSortComparatorClass设置的key的比较函数类进行排序，如果没有则使用Key的实现的compareTo方法。

2、在归并每一个maptask的环形缓冲区的所有溢写文件的时候也会再次进行排序

3、当reduce接收到所有map传输过来的数据之后，对每一个分区的数据进行merge并排序，调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序，如果没有则使用Key的实现的compareTo方法。

4、紧接着使用job.setGroupingComparatorClass设置的分组函数类，进行分组，同一个Key的value放在一个迭代器里面。如果未指定GroupingComparatorClass则则使用Key的实现的compareTo方法来对其分组。 Hadoop1.0中不可避免 hadoop2.0中可以关闭，将reducetask设置为0

2021-12-05 21:47:45

赞同展开评论

问答分类：

分布式计算

问答标签：

开源大数据平台 E-MapReduce排序

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

591

1

0

MapReduce能否对key做全局排序？

855

1

0

mapReduce排序发生的阶段是什么？

525

1

0

mapReduce有几种排序？

711

1

0

mapReduce排序发生的阶段有哪些呢？

541

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

580

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

479

1

0

MapReduce的辅助排序应用于哪里？

466

1

0

MapReduce中的部分排序有什么优点？

336

1

0

MapReduce中的辅助排序指的是什么？

362

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于国际版和国内版客户端购买套餐问题

Pro试用版是只有300的Credits么？

Qoder REPO WIKI使用优化

Qoder Work是个好家伙，但是什么时候能支持自定义模型API？

idea qoder cn报错

相关文章

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

【赵渝强老师】Hadoop HDFS的回收站和快照

阿里云服务器实例选择指南：经济型、通用型、计算型、内存型性能解析与场景解析

AutoMQ x 阿里云 OSS Tables：基于 Iceberg 构建流表一体的实时入湖

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

还有其他疑问?