1 Hadoop生态圈技术纵览
2 分布式概念
3 HDFS 读写过程
HDFS 读过程
HDFS 写过程
4 伪分布式集群
5 MapReduce
MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:
- MapReduce由两个不同的任务组成 Map和Reduce。
- 正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。
- 因此,第一个是Map任务,其中读取并处理数据块以生成作为中间输出的键值对。
- Mapper或map作业(键值对)的输出被输入到Reducer。
- reducer从多个map作业中接收键值对。
- 然后,reducer将这些中间数据元组(中间键值对)聚合成一组较小的元组或键值对,这是最终输出。
MapReduce教程:MapReduce的字数统计示例
让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:
Dear, Bear, River, Car, Car, River, Deer, Car ,Bear
现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。
- 首先,我们将输入分成三个分区,如图所示。这将在所有Map节点之间分配工作。
- 然后,我们对每个映射器中的单词进行标记,并为每个标记或单词提供硬编码值(1)。给出硬编码值等于1的理由是每个单词本身都会出现一次。
- 现在,将创建一个键值对列表,其中键是单词和值是1。所以,对于第一行(
Dear, Bear, River
),我们有3个键值对 - Dear,1; Bear,1; River,1。映射过程在所有节点上保持不变。 - 在映射器阶段之后,发生分区和重排的分区过程,以便将具有相同键的所有元组发送到相应的reducer。
- 因此,在排序和重排阶段之后,每个reducer将具有唯一键和与该键相对应的值列表。例如,Bear,[1,1]; Car,[1,1,1] ..等
- 现在,每个Reducer计算该值列表中存在的值。如图所示,reducer获取一个值列表,其中键值为[1,1]。然后,它计算列表中的1的数量,并将最终输出给出为 - Bear,2。
- 最后,然后收集所有输出键/值对并将其写入输出文件中。
参考资料
MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example