文档备案控制台

开发者社区问答正文

MapReduce能否对key做全局排序？

MapReduce能否对key做全局排序？

展开

收起

芯在这 2021-12-06 22:25:34 866 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

可以。

方案一 MapReduce只能保证一个分区内的数据是key有序的，一个分区对应一个reduce，因此只有一个reduce就保证了数据全局有序

缺点：不能用到集群的优势。

方案二多个reduce情况下，可以按照key进行分区，通过MapReduce的默认分区函数HashPartition将不同范围的key发送到不同的reduce处理。例如一个文件中有key值从1到10000的数据，我们使用两个分区，将1到5000的key发送到partition1，然后由reduce1处理，5001到10000的key发动到partition2然后由reduce2处理，reduce1中的key是按照1到5000的升序排序，reduce2中的key是按照5001到10000的升序排序，这样就保证了整个MapReduce程序的全局排序。

缺点： 1.当数据量大时会出现OOM(内存溢出) 2.会出现数据倾斜

方案三 Hadoop提供了TotalOrderPartitionner类用于实现全局排序的功能，并且解决了OOM和数据倾斜的问题。 TotalOrderPartitioner类提供了数据采样器，对key值进行部分采样，然后按照采样结果寻找key值的最佳分割点，将key值均匀的分配到不同的分区中。

2021-12-06 22:25:57

赞同展开评论

问答分类：

分布式计算

问答标签：

mapreduce key

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

603

1

0

mapReduce排序发生的阶段是什么？

533

1

0

mapReduce有几种排序？

721

1

0

mapReduce排序发生的阶段有哪些呢？

561

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

594

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

488

1

0

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

656

1

0

MapReduce的辅助排序应用于哪里？

472

1

0

阿里云E-MapReduce的那hadoop sdk怎么拿到？maven里没有。

322

1

0

E-MapReduce漏洞修复Apache Log4j2，Apache Hadoop？

469

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于credits购买机制

qoderWorkCn什么时候才能接入阿里云-百炼平台的token plan,自家套餐都没接入

程序员群体，大家都在用什么code plan方案？还有用的什么编码智能体？

QoderCN Jetbrains插件存在EDT反模式

你们能不能简化点购买什么的，一会qoder官网，一会进阿里云。想续费，点了一会来回跳。。。。

相关文章

EMR Serverless Spark AI Function 的双维降本实践

大数据面试别只背八股！从零到拿下大厂的大数据系统设计备考路线

AWS EMR 上的 Spark 作业迁到阿里云用什么？AnalyticDB MySQL 湖仓版 Serverless Spark 免运维替代方案

AnalyticDB MySQL 湖仓版 Serverless Spark vs EMR Spark：免运维、弹性与成本全维度对比

Google BigQuery 在阿里云上最接近什么产品？AnalyticDB MySQL Serverless 与 MaxCompute 如何选

还有其他疑问?