分布式计算引擎MapReduce

2018-01-10 2243

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 应用场景当数据量大到一定程度，传统的技术无法进行解决的时候，那么需要采用分布式计算引擎MapReduce来尝试解决了！操作步骤1. 架构图 Hadoop是由Apache基金会所开发的分布式系统基础架构，组织架构如下图所示：正如上图所示：Hadoop包含很多优秀的子项目，例如HDFS，Mapreduce，Hbase，Hive，Zookeeper等，其中最重要的，也是Hadoop当时风靡一时的原因是HDFS（分布式文件系统）和Mapreduce（分布式计算框架）。

应用场景

当数据量大到一定程度，传统的技术无法进行解决的时候，那么需要采用分布式计算引擎MapReduce来尝试解决了！

操作步骤

1. 架构图

Hadoop是由Apache基金会所开发的分布式系统基础架构，组织架构如下图所示：

这里写图片描述

正如上图所示：Hadoop包含很多优秀的子项目，例如HDFS，Mapreduce，Hbase，Hive，Zookeeper等，其中最重要的，也是Hadoop当时风靡一时的原因是HDFS（分布式文件系统）和Mapreduce（分布式计算框架）。HDFS解释了，hadoop如何解决大数据的存储问题，而Mapreduce解释了，hadoop如何对大数据的计算问题。

2. MapReduce

把大量的数据放到了HDFS上，接下去如何对大数据进行分析，需要Hadoop的另一个核心技术，MapReduce。
Mapreduce是一种编程模型，是一种编程方法，抽象理论。MapReduce相当的抽象，还是用通俗的话来说比较好。比如，现在要做一份洋葱辣椒酱，当然取一个洋葱，把它切碎，然后拌入盐和水，最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。那现在要用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱，我们会取薄荷叶一撮，洋葱一个，番茄一个，辣椒一根，大蒜一根，切碎后加入适量的盐和水，再放入混合研磨机里研磨，这样就可以得到一瓶混合辣椒酱了。
这其实和MapReduce是一个道理，Map和Reduce其实是两种操作，Map（映射）: 把洋葱、番茄、辣椒和大蒜切碎，是各自作用在这些物体上的一个Map操作。所以你给Map一个洋葱，Map就会把洋葱切碎。
同样的，你把辣椒，大蒜和番茄一一地拿给Map，你也会得到各种碎块。所以，当你在切像洋葱这样的蔬菜时，你执行就是一个Map操作。
Map操作适用于每一种蔬菜，它会相应地生产出一种或多种碎块，在我们的例子中生产的是蔬菜块。在Map操作中可能会出现有个洋葱坏掉了的情况，你只要把坏洋葱丢了就行了。所以，如果出现坏洋葱了，Map操作就会过滤掉坏洋葱而不会生产出任何的坏洋葱块。Reduce（化简）:在这一阶段，你将各种蔬菜碎都放入研磨机里进行研磨，你就可以得到一瓶辣椒酱了。这意味要制成一瓶辣椒酱，你得研磨所有的原料。因此，研磨机通常将map操作的蔬菜碎聚集在了一起。
mapreduce操作过程如下图所示：

这里写图片描述

一切都是从最上方的user program开始的，user program链接了MapReduce库，实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。
1.MapReduce库先把user program的输入文件划分为M份（M为用户定义），每一份通常有16MB到64MB，如图左方所示分成了split0~4；然后使用fork将用户进程拷贝到集群内其它机器上。
2.user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或者Reduce作业），worker的数量也是可以由用户指定的。
3.被分配了Map作业的worker，开始读取对应分片的输入数据，Map作业数量是由M决定的，和split一一对应；Map作业从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。
4.缓存的中间键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些中间键值对的位置会被通报给master，master负责将信息转发给Reduce worker。
5.master通知分配了Reduce作业的worker它负责的分区在什么位置（肯定不止一个地方，每个Map作业产生的中间键值对都可能映射到所有R个不同分区），当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业（谁让分区少呢），所以排序是必须的。
6.reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。
7.当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program的代码。
有人问：金庸的天龙八部小说里谁出现的次数最多？很多人说是乔峰，是错误的，其实这是一个用mapreduce的很好的例子，先把小说揉碎，揉成一个一个的词组，将人名词组定义为map中的key，value即为出现的次数，然后通过reduce进行归一，统计出现次数最多的人物，统计结果是段誉。结果前十位分别如下：

这里写图片描述

分布式计算引擎MapReduce

应用场景

操作步骤

1. 架构图

2. MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

分布式计算引擎MapReduce

应用场景

操作步骤

1. 架构图

2. MapReduce

热门文章

最新文章

相关课程

相关电子书

相关实验场景