文档备案控制台

开发者社区问答正文

mapReduce有几种排序？

mapReduce有几种排序？

展开

收起

芯在这 2021-12-06 22:06:02 721 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

有四种

（1）部分排序： MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。

（2）全排序：如何用Hadoop产生一个全局排序的文件？最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低，因为一台机器必须处理所有输出文件，从而完全丧失了MapReduce所提供的并行架构。替代方案：首先创建一系列排好序的文件；其次，串联这些文件；最后，生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如：可以为待分析文件创建3个分区，在第一分区中，记录的单词首字母a-g，第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。

（3）辅助排序：（GroupingComparator分组） Mapreduce框架在记录到达reducer之前按键对记录排序，但键所对应的值并没有被排序。甚至在不同的执行轮次中，这些值的排序也不固定，因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说，大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是，有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。

（4）二次排序：在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序

2021-12-06 22:19:25

赞同展开评论

问答分类：

分布式计算

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

603

1

0

MapReduce能否对key做全局排序？

866

1

0

mapReduce排序发生的阶段是什么？

533

1

0

mapReduce排序发生的阶段有哪些呢？

561

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

594

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

488

1

0

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

656

1

0

MapReduce的辅助排序应用于哪里？

472

1

0

MapReduce中的部分排序有什么优点？

343

1

0

MapReduce中的辅助排序指的是什么？

373

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于credits购买机制

qoderWorkCn什么时候才能接入阿里云-百炼平台的token plan,自家套餐都没接入

程序员群体，大家都在用什么code plan方案？还有用的什么编码智能体？

QoderCN Jetbrains插件存在EDT反模式

你们能不能简化点购买什么的，一会qoder官网，一会进阿里云。想续费，点了一会来回跳。。。。

相关文章

EMR Serverless Spark AI Function 的双维降本实践

大数据面试别只背八股！从零到拿下大厂的大数据系统设计备考路线

AWS EMR 上的 Spark 作业迁到阿里云用什么？AnalyticDB MySQL 湖仓版 Serverless Spark 免运维替代方案

AnalyticDB MySQL 湖仓版 Serverless Spark vs EMR Spark：免运维、弹性与成本全维度对比

Google BigQuery 在阿里云上最接近什么产品？AnalyticDB MySQL Serverless 与 MaxCompute 如何选

还有其他疑问?