文档备案控制台

开发者社区问答正文

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

展开

收起

芯在这 2021-12-05 21:47:13 656 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

1、map最后阶段进行partition分区，一般使用job.setPartitionerClass设置的类，如果没有自定义Key的hashCode()方法进行分区。在map阶段写出到环形缓冲区，在环形缓冲区溢写时会进行一次排序，每个分区内部调用job.setSortComparatorClass设置的key的比较函数类进行排序，如果没有则使用Key的实现的compareTo方法。

2、在归并每一个maptask的环形缓冲区的所有溢写文件的时候也会再次进行排序

3、当reduce接收到所有map传输过来的数据之后，对每一个分区的数据进行merge并排序，调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序，如果没有则使用Key的实现的compareTo方法。

4、紧接着使用job.setGroupingComparatorClass设置的分组函数类，进行分组，同一个Key的value放在一个迭代器里面。如果未指定GroupingComparatorClass则则使用Key的实现的compareTo方法来对其分组。 Hadoop1.0中不可避免 hadoop2.0中可以关闭，将reducetask设置为0

2021-12-05 21:47:45

赞同展开评论

问答分类：

分布式计算

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

603

1

0

MapReduce能否对key做全局排序？

866

1

0

mapReduce排序发生的阶段是什么？

533

1

0

mapReduce有几种排序？

721

1

0

mapReduce排序发生的阶段有哪些呢？

560

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

594

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

488

1

0

MapReduce的辅助排序应用于哪里？

472

1

0

MapReduce中的部分排序有什么优点？

343

1

0

MapReduce中的辅助排序指的是什么？

373

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于credits购买机制

qoderWorkCn什么时候才能接入阿里云-百炼平台的token plan,自家套餐都没接入

程序员群体，大家都在用什么code plan方案？还有用的什么编码智能体？

QoderCN Jetbrains插件存在EDT反模式

你们能不能简化点购买什么的，一会qoder官网，一会进阿里云。想续费，点了一会来回跳。。。。

相关文章

EMR Serverless Spark AI Function 的双维降本实践

大数据面试别只背八股！从零到拿下大厂的大数据系统设计备考路线

AWS EMR 上的 Spark 作业迁到阿里云用什么？AnalyticDB MySQL 湖仓版 Serverless Spark 免运维替代方案

AnalyticDB MySQL 湖仓版 Serverless Spark vs EMR Spark：免运维、弹性与成本全维度对比

Google BigQuery 在阿里云上最接近什么产品？AnalyticDB MySQL Serverless 与 MaxCompute 如何选

还有其他疑问?