KeyValueTextInputFormat(案例分析)| 学习笔记

简介: 快速学习 KeyValueTextInputFormat(案例分析)

开发者学堂课程【Hadoop 分布式计算框架 MapReduc:KeyValueTextInputFormat 案例实现学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1504


KeyValueTextInputFormat(案例分析)

 

目录:

一、特性

二、使用案例

三、需求分析

 

一、特性

每一行均为一条记录,被分隔符分割为 key,value。 可以通过在驱动类中设置confset(KeyValueLineRecordReader:KEY_ _VALUE_ SEPERATOR, "t"),来设定分隔符。默认分隔符是 tab (\t)。以下是一个示例,输入是一个包含4条记录的分片。其中一>表示一个(水平方向的)制表符。

line1一>Rich learning form

line2一-> Intell igent learning engine

line3一->Learning more conven ient

line4一>From the real demand for more close to the enterprise

每条记录表示为以下键值对:

(line1,Rich learning forn}

(line2, Intelligent learn ing engine)

(line3, Learning more convenient)

(line4,From the real denand for more close to the enterprise)

此时的键是每行排在制表符之前的 Text 序列。

让天下没方难学的技术。


二、使用案例

1.需求。

统计输入文件中每一行的第一个单词相同的行数。。

(1)输入数据。

banzhang ni haou

xihuan hadoop banzhang-banzhang ni haor

xihuan hadoop banzhange

(2)期望结果数据. .

banzhang 2

xihuan    2


三、需求分析

1、需求:统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao

xihuan hadoop banzhang

banzhang ni hao

xihuan hadoop banzhang

3、期望输出数据

banzhang 2

xihuan 2

4、Map 阶段

banzhang ni hao

( 1 )设置 key 和 value

<banzhang,1>

( 2 )写出

5、Reduce 阶段

<banzhang,1>

<banzhang,1>

( 1 )汇总

<banzhang,2>

(2)写出

6、Driver

//( 1 )设置切割符

conf . set (KeyValueLineRecordRea der . KEY VALUE SEPERATOR, " ") ;

// ( 2 )设置输入格式

job.setInputFormatClass(KeyValue TextInput Format.class);

相关文章
|
分布式计算 Hadoop 开发者
eTextInputFormat(案例分析)| 学习笔记
快速学习 eTextInputFormat(案例分析)
|
存储 人工智能 算法
数字音频基础(下)| 学习笔记
快速学习数字音频基础(下),介绍了数字音频基础(下)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(下)| 学习笔记
|
编解码 开发者
数字音频基础(上)| 学习笔记
快速学习数字音频基础(上),介绍了数字音频基础(上)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(上)| 学习笔记
|
存储 开发者
数字音频基础(中)| 学习笔记
快速学习数字音频基础(中),介绍了数字音频基础(中)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(中)| 学习笔记
|
数据挖掘
时不我待(第二十一课) 对数据的分析的能力 将数据展示出来(一)
时不我待(第二十一课) 对数据的分析的能力 将数据展示出来(一)
74 0
|
域名解析 安全 搜索推荐
|
前端开发 数据库 数据安全/隐私保护
|
定位技术 开发者
|
Java 关系型数据库 MySQL
入门案例(使用的资源介绍)|学习笔记
快速学习入门案例(使用的资源介绍)
入门案例(使用的资源介绍)|学习笔记
下一篇
DataWorks