文档备案控制台

开发者社区问答正文

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤？

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤？

展开

收起

芯在这 2021-12-06 21:51:23 642 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

第一步:inputformat 数据读取

第二步:split 将获取的数据进行逻辑切分

第三步: recordReader(将数据以\n切分，进行再次切分,并输出key(行首字母的偏移量),value(一行的数据))

第四步: Map接收key(行首字母偏移量),value(一行的数据),根据业务需求编写代码,输出(key,value 的list)

输出给Shuffle(partition)

shffle(核心机制: 数据分区,排序,分组,ComBine,合并等过程)输出key value的list

第五步:partition :按照一定的规则对key,value 的 list 进行分区输出给Shuffle(sort)

第六步:Sort :对每个分区内的数据进行排序。输出给Shuffle(combiner)

第七步: Combiner: 在Map端进行局部聚合(汇总) 目的是为了减少网络带宽的开销输出给Shuffle(group)

第八步: Group: 将相同key的key提取出来作为唯一的key,将相同key 对应的value 提取出来组装成一个value 的List 输出给Shuffle(reduce)

第九步: Reduce:根据业务需求对传入的数据进行汇总计算输出给Shuffle(outputFormat)

第十步: outputFormat:将最终的结果的写入到HDFS

2021-12-06 21:52:05

赞同展开评论

问答标签：

文件存储HDFS版步骤文件存储HDFS版读取数据

问答地址：

开发者社区 > 云计算 > 问答

相关问答

DataWorks配置HDFS数据源操作步骤是什么？

274

3

0

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1903

6

0

通过HDFS将数据切成多个小块导致查询效率低该怎么办？

1764

1

0

HDFS写数据是怎么写的呀？

537

1

0

Java中HDFS写数据时有那些问题啊？

1341

1

0

Java中为什么HDFS不能很快的读取数据啊？

1427

1

0

Java中HDFS作为一个分布式文件系统且存储大量数据不适合什么情况啊？

1683

1

0

Java中HDFS数据被写入后还能改变数据的值吗？

1564

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

538

1

0

请问一下从hdfs load数据到hive中 hive数据全部为null是什么情况呢，hdfs数据

1631

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

现在还能免费部署模型至api上了吗？

更新太慢了,模型也要赶紧优化

如何获取阿里云服务器的优惠折扣？

通义灵码提示格式问题

modelscope 部署模型资源好久了，一直没响应，这应该怎么删除重新部署呢？

相关解决方案

更多

基于数据闪回，快速恢复数据

多模态数据信息提取

数据守护：防勒索攻击数据保障

高效存储和处理多媒体数据

泛时序数据一站式分析与洞察

还有其他疑问?