开发者学堂课程【Hadoop 分布式计算框架 MapReduce:WordCount 案例分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1481
WordCount 案例分析
简介:
一、WordCount 案例实操
二、需求分析
一、WordCount 案例实操
1、需求
在给定得文本文件中统计输出每一个单词出现总次数
(1)输入数据
(2)期望输出数据
Atguigu 2
Banzhang 1
Cls 2
Hadoop 1
Jiao 1
Ss2
二、需求分析
按照MapReduce编程规范,分别编写 Mapper,Reducer,Driver
1、输入数据:
atguigu atguigu
ss ss
cls cls
jiao
Banzhang
xue
hadoop
2、输出数据:
Atguigu 2
Banzhang 1
Cls 2
hadoop 1
Jiao 1
Ss 2
Xue 1
3、Mapper
// 3.1 将 MapTask 传给我们的文本内容先转换成 String
atguigu atguigu
//3.2根据空格将这一行切分成单词
atguigu
atguigu
//3.3将单词输出为<单词,1>
atguigu,1
atguigu,1
4、Reducer
//4.1汇总各个 key 的个数
atguigu,1
atguigu,1
// 4.2输出该 key 的总次数
atguigu, 2
5、Driver
//5.1获取配置信息,获取 job 对象实例
//5.2指定本程序的 jar 包所在的本地路径
//5.3关联 Mapper/Reducer 业务类
//5.4指定 Mapper 输出数据的 kv 类型
//5.5指定最终输出的数据的 kv 类型
//5.6指定 job 的输入原始文件所在目录
//5.7指定 job 的输出结果所在目
//5.8提交作业