WordCount 案例分析| 学习笔记

简介: 快速学习 WordCount 案例分析

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:WordCount 案例分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1481


WordCount 案例分析


简介:

一、WordCount 案例实操

二、需求分析

 

一、WordCount 案例实操

1、需求

在给定得文本文件中统计输出每一个单词出现总次数

(1)输入数据

图片11.png

(2)期望输出数据

Atguigu 2

Banzhang 1

Cls 2

Hadoop 1

Jiao 1

Ss2

图片12.png

 

二、需求分析

按照MapReduce编程规范,分别编写 Mapper,Reducer,Driver

1、输入数据:

atguigu atguigu

ss ss

cls cls

jiao

Banzhang

xue

hadoop

2、输出数据:

Atguigu  2

Banzhang 1

Cls      2

hadoop 1

Jiao    1

Ss     2

Xue   1

3、Mapper

// 3.1 将 MapTask 传给我们的文本内容先转换成 String

atguigu atguigu

//3.2根据空格将这一行切分成单词

atguigu

atguigu

//3.3将单词输出为<单词,1>

atguigu,1

atguigu,1

4、Reducer

//4.1汇总各个 key 的个数

atguigu,1

atguigu,1

// 4.2输出该 key 的总次数

atguigu, 2

5、Driver

//5.1获取配置信息,获取 job 对象实例

//5.2指定本程序的 jar 包所在的本地路径

//5.3关联 Mapper/Reducer 业务类

//5.4指定 Mapper 输出数据的 kv 类型

//5.5指定最终输出的数据的 kv 类型

//5.6指定 job 的输入原始文件所在目录

//5.7指定 job 的输出结果所在目

//5.8提交作业

相关文章
|
8月前
|
分布式计算 Java Hadoop
大数据实战——WordCount案例实践
大数据实战——WordCount案例实践
|
分布式计算 Hadoop Java
Hadoop学习笔记:运行wordcount对文件字符串进行统计案例
Hadoop学习笔记:运行wordcount对文件字符串进行统计案例
84 0
|
分布式计算 Hadoop Java
三十、MapReduce之wordcount案例(环境搭建及案例实施)
三十、MapReduce之wordcount案例(环境搭建及案例实施)
三十、MapReduce之wordcount案例(环境搭建及案例实施)
|
SQL 分布式计算 Java
Spark入门以及wordcount案例代码
Spark入门以及wordcount案例代码
|
分布式计算 Hadoop Java
动手写的第一个MapReduce程序--wordcount
动手写的第一个MapReduce程序--wordcount
123 0
|
分布式计算 大数据 Hadoop
大数据实验——用Spark实现wordcount单词统计
大数据实验——用Spark实现wordcount单词统计
大数据实验——用Spark实现wordcount单词统计
|
分布式计算 Java Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
160 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
|
存储 分布式计算 Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
142 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
|
大数据 Scala 开发者
经典的 Wordcount 的讲解 | 学习笔记
快速学习经典的 Wordcount 的讲解
|
分布式计算 JavaScript 前端开发
Spark综合小案例之莎士比亚诗文集词频统计
Spark综合小案例之莎士比亚诗文集词频统计
235 0
Spark综合小案例之莎士比亚诗文集词频统计