备案控制台

开发者社区问答正文

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤？

MR从读取数据开始到将最终结果写入HDFS经过哪些步骤？

展开

收起

芯在这 2021-12-06 21:51:23 627 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

第一步:inputformat 数据读取

第二步:split 将获取的数据进行逻辑切分

第三步: recordReader(将数据以\n切分，进行再次切分,并输出key(行首字母的偏移量),value(一行的数据))

第四步: Map接收key(行首字母偏移量),value(一行的数据),根据业务需求编写代码,输出(key,value 的list)

输出给Shuffle(partition)

shffle(核心机制: 数据分区,排序,分组,ComBine,合并等过程)输出key value的list

第五步:partition :按照一定的规则对key,value 的 list 进行分区输出给Shuffle(sort)

第六步:Sort :对每个分区内的数据进行排序。输出给Shuffle(combiner)

第七步: Combiner: 在Map端进行局部聚合(汇总) 目的是为了减少网络带宽的开销输出给Shuffle(group)

第八步: Group: 将相同key的key提取出来作为唯一的key,将相同key 对应的value 提取出来组装成一个value 的List 输出给Shuffle(reduce)

第九步: Reduce:根据业务需求对传入的数据进行汇总计算输出给Shuffle(outputFormat)

第十步: outputFormat:将最终的结果的写入到HDFS

2021-12-06 21:52:05

赞同展开评论

问答标签：

文件存储HDFS版步骤文件存储HDFS版读取数据

问答地址：

开发者社区 > 云计算 > 问答

相关问答

DataWorks配置HDFS数据源操作步骤是什么？

249

3

0

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1849

6

0

通过HDFS将数据切成多个小块导致查询效率低该怎么办？

1749

1

0

HDFS写数据是怎么写的呀？

531

1

0

Java中HDFS写数据时有那些问题啊？

1327

1

0

Java中为什么HDFS不能很快的读取数据啊？

1413

1

0

Java中HDFS作为一个分布式文件系统且存储大量数据不适合什么情况啊？

1666

1

0

Java中HDFS数据被写入后还能改变数据的值吗？

1549

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

529

1

0

请问一下从hdfs load数据到hive中 hive数据全部为null是什么情况呢，hdfs数据

1598

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

还有其他疑问?