备案控制台

开发者社区问答正文

MapReduce能否对key做全局排序？

MapReduce能否对key做全局排序？

展开

收起

芯在这 2021-12-06 22:25:34 773 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

可以。

方案一 MapReduce只能保证一个分区内的数据是key有序的，一个分区对应一个reduce，因此只有一个reduce就保证了数据全局有序

缺点：不能用到集群的优势。

方案二多个reduce情况下，可以按照key进行分区，通过MapReduce的默认分区函数HashPartition将不同范围的key发送到不同的reduce处理。例如一个文件中有key值从1到10000的数据，我们使用两个分区，将1到5000的key发送到partition1，然后由reduce1处理，5001到10000的key发动到partition2然后由reduce2处理，reduce1中的key是按照1到5000的升序排序，reduce2中的key是按照5001到10000的升序排序，这样就保证了整个MapReduce程序的全局排序。

缺点： 1.当数据量大时会出现OOM(内存溢出) 2.会出现数据倾斜

方案三 Hadoop提供了TotalOrderPartitionner类用于实现全局排序的功能，并且解决了OOM和数据倾斜的问题。 TotalOrderPartitioner类提供了数据采样器，对key值进行部分采样，然后按照采样结果寻找key值的最佳分割点，将key值均匀的分配到不同的分区中。

2021-12-06 22:25:57

赞同展开评论

问答分类：

分布式计算

问答标签：

开源大数据平台 E-MapReduce排序 mapreduce key 开源大数据平台 E-MapReduce key排序

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

525

1

0

mapReduce排序发生的阶段是什么？

467

1

0

mapReduce有几种排序？

622

1

0

mapReduce排序发生的阶段有哪些呢？

481

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

499

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

413

1

0

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

567

1

0

MapReduce的辅助排序应用于哪里？

410

1

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

130

1

0

E-MapReduce集群如何打开kafka组件的JMX端口

142

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

阿里云云企业网CEN是什么？如何使用？

阿里云全球加速GA是什么？怎么使用？

相关文章

阿里云携手 MiniMax 构建云原生数仓最佳实践：大模型时代的 Data + AI 数据处理平台

Dataphin功能Tips系列（80）每日新增表高效同步！脚本模式+参数化配置助你轻松搞定动态数据同步

阿里云通用算力型u2i与经济型e实例性能、适用场景区别及选择参考

AI战略丨大模型应用元年，让智能真正转变为生产力

主流ChatBi产品推荐，一文看懂分析agent产品选型

还有其他疑问?