WordCount 案例分析| 学习笔记

简介: 快速学习 WordCount 案例分析

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:WordCount 案例分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1481


WordCount 案例分析


简介:

一、WordCount 案例实操

二、需求分析

 

一、WordCount 案例实操

1、需求

在给定得文本文件中统计输出每一个单词出现总次数

(1)输入数据

图片11.png

(2)期望输出数据

Atguigu 2

Banzhang 1

Cls 2

Hadoop 1

Jiao 1

Ss2

图片12.png

 

二、需求分析

按照MapReduce编程规范,分别编写 Mapper,Reducer,Driver

1、输入数据:

atguigu atguigu

ss ss

cls cls

jiao

Banzhang

xue

hadoop

2、输出数据:

Atguigu  2

Banzhang 1

Cls      2

hadoop 1

Jiao    1

Ss     2

Xue   1

3、Mapper

// 3.1 将 MapTask 传给我们的文本内容先转换成 String

atguigu atguigu

//3.2根据空格将这一行切分成单词

atguigu

atguigu

//3.3将单词输出为<单词,1>

atguigu,1

atguigu,1

4、Reducer

//4.1汇总各个 key 的个数

atguigu,1

atguigu,1

// 4.2输出该 key 的总次数

atguigu, 2

5、Driver

//5.1获取配置信息,获取 job 对象实例

//5.2指定本程序的 jar 包所在的本地路径

//5.3关联 Mapper/Reducer 业务类

//5.4指定 Mapper 输出数据的 kv 类型

//5.5指定最终输出的数据的 kv 类型

//5.6指定 job 的输入原始文件所在目录

//5.7指定 job 的输出结果所在目

//5.8提交作业

相关文章
|
6月前
|
分布式计算 Hadoop Java
Hadoop学习笔记:运行wordcount对文件字符串进行统计案例
Hadoop学习笔记:运行wordcount对文件字符串进行统计案例
34 0
|
12月前
|
SQL 分布式计算 Java
Spark入门以及wordcount案例代码
Spark入门以及wordcount案例代码
|
分布式计算 Hadoop Java
三十、MapReduce之wordcount案例(环境搭建及案例实施)
三十、MapReduce之wordcount案例(环境搭建及案例实施)
三十、MapReduce之wordcount案例(环境搭建及案例实施)
|
分布式计算 Hadoop Java
动手写的第一个MapReduce程序--wordcount
动手写的第一个MapReduce程序--wordcount
|
大数据 Scala 开发者
经典的 Wordcount 的讲解 | 学习笔记
快速学习经典的 Wordcount 的讲解
57 0
|
SQL 存储 分布式计算
10.EMR-MR 节点 WordCount 案例演示|学习笔记
快速学习10.EMR-MR 节点 WordCount 案例演示
79 0
10.EMR-MR 节点 WordCount 案例演示|学习笔记
|
分布式计算 Java Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
116 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
|
存储 分布式计算 Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
102 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
|
分布式计算 资源调度 Java
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
|
分布式计算 Python
Python实现一个最简单的MapReduce编程模型WordCount
Python实现一个最简单的MapReduce编程模型WordCount
114 0