主要有几个计算过程: map:数据映射,对数据进行清洗过滤和格式化;map的函数是程序编写; combiner:可选,成为map本地的reduce,对map本地端的数据进行局部聚合;函数自己编写或者直接使用reduce函数; shuffle:这个是mapreduce框架自带,主要负责数据从map分发给reduce任务; reduce:数据聚合。
MapReduce操作分为两个阶段:
映射阶段 - 在此阶段,输入数据由映射任务分割。地图任务并行运行。这些拆分数据用于分析目的。 减少阶段 - 在此阶段,类似的拆分数据将从整个集合中聚合并显示结果。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。