开发者社区> 问答> 正文

mapReduce有几种排序?

mapReduce有几种排序?

展开
收起
芯在这 2021-12-06 22:06:02 493 0
1 条回答
写回答
取消 提交回答
  • 有四种

    (1)部分排序: MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部排序。

    (2)全排序: 如何用Hadoop产生一个全局排序的文件?最简单的方法是使用一个分区。但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构。 替代方案:首先创建一系列排好序的文件;其次,串联这些文件;最后,生成一个全局排序的文件。主要思路是使用一个分区来描述输出的全局排序。例如:可以为待分析文件创建3个分区,在第一分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n, 第三分区记录单词首字母o-z。

    (3)辅助排序:(GroupingComparator分组) Mapreduce框架在记录到达reducer之前按键对记录排序,但键所对应的值并没有被排序。甚至在不同的执行轮次中,这些值的排序也不固定,因为它们来自不同的map任务且这些map任务在不同轮次中完成时间各不相同。一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序。但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序。

    (4)二次排序: 在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序

    2021-12-06 22:19:25
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
使用Apache Beam和HBase进行高效数据处理 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载