文档备案控制台

开发者社区问答正文

MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

展开

收起

愚笨如你 2020-02-14 20:55:29 1877 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

愚笨如你

1）一个 MapReduce 作业由 Map 阶段和 Reduce 阶段两部分组成，这两阶段会对数据排序，从这个意义上说，MapReduce 框架本质就是一个 Distributed Sort。 2）在 Map 阶段，Map Task 会在本地磁盘输出一个按照 key 排序（采用的是快速排序）的文件（中间可能产生多个文件，但最终会合并成一个），在 Reduce 阶段，每个 Reduce Task 会对收到的数据排序，这样，数据便按照 Key 分成了若干组，之后以组为单位交给 reduce（）处理。 3）很多人的误解在 Map 阶段，如果不使用 Combiner便不会排序，这是错误的，不管你用不用 Combiner，Map Task 均会对产生的数据排序（如果没有 Reduce Task，则不会排序，实际上 Map 阶段的排序就是为了减轻 Reduce端排序负载）。 4）由于这些排序是 MapReduce 自动完成的，用户无法控制，因此，在hadoop 1.x 中无法避免，也不可以关闭，但 hadoop2.x 是可以关闭的

2020-02-14 20:55:48

赞同展开评论

问答分类：

分布式计算

问答标签：

开源大数据平台 E-MapReduce排序

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mapreduce中使用到的排序是什么？

602

1

0

MapReduce能否对key做全局排序？

861

1

0

mapReduce排序发生的阶段是什么？

530

1

0

mapReduce有几种排序？

717

1

0

mapReduce排序发生的阶段有哪些呢？

558

1

0

mapReduce的排序种类有哪些，作用分别是什么呢？

586

1

0

编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？

484

1

0

MapReduce 中排序发生在哪几个阶段？这些排序可以避免吗？

652

1

0

MapReduce的辅助排序应用于哪里？

470

1

0

MapReduce中的部分排序有什么优点？

341

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

矩阵账号批量直播，单套软件最多能同时运营几个账号？

能不能靠谱点？每天更新，自己发现不了问题？测试人员都栽了吗？

完全没有直播经验，上手 AI 直播需要多久？

动态变量话术引擎对直播有什么作用？

在vs code安装Qoder CN，登录并订阅了个人专业版，无法使用，急急急

相关文章

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

还有其他疑问?