eTextInputFormat(案例分析)| 学习笔记

简介: 快速学习 eTextInputFormat(案例分析)

开发者学堂课程【Hadoop 分布式计算框架 MapReduceFilelnputFormat 切片机制和配置参数】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1504


eTextInputFormat(案例分析)

 

目录:

一、特性

二、使用案例

三、需求分析

 

一、特性

每一行均为一条记录,被分隔符分割为 key,value。 可以通过在驱动类中设置confset(KeyValueLineRecordReader:KEY_ _VALUE_ SEPERATOR, "t"),来设定分隔符。默认分隔符是 tab (\t)。以下是一个示例,输入是一个包含4条记录的分片。其中一>表示一个(水平方向的)制表符。

line1一>Rich learning form

line2一-> Intell igent learning engine

line3一->Learning more conven ient

line4一>From the real demand for more close to the enterprise

每条记录表示为以下键值对:

(line1,Rich learning forn}

(line2, Intelligent learn ing engine)

(line3, Learning more convenient)

(line4,From the real denand for more close to the enterprise)

此时的键是每行排在制表符之前的 Text 序列。

让天下没方难学的技术。


二、使用案例

1.需求。

统计输入文件中每一行的第一个单词相同的行数。。

(1)输入数据。

banzhang ni haou

xihuan hadoop banzhang-banzhang ni haor

xihuan hadoop banzhange

(2)期望结果数据. .

banzhang 2

xihuan    2


三、需求分析

1、需求:统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao

xihuan hadoop banzhang

banzhang ni hao

xihuan hadoop banzhang

3、期望输出数据

banzhang 2

xihuan 2

4、Map 阶段

banzhang ni hao

( 1 )设置 key 和 value

<banzhang,1>

( 2 )写出

5、Reduce 阶段

<banzhang,1>

<banzhang,1>

( 1 )汇总

<banzhang,2>

(2)写出

6、Driver

//( 1 )设置切割符

conf . set (KeyValueLineRecordRea der . KEY VALUE SEPERATOR, " ") ;

// ( 2 )设置输入格式

job.setInputFormatClass(KeyValue TextInput Format.class);

相关文章
|
存储 开发者
数字音频基础(中)| 学习笔记
快速学习数字音频基础(中),介绍了数字音频基础(中)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(中)| 学习笔记
|
编解码 开发者
数字音频基础(上)| 学习笔记
快速学习数字音频基础(上),介绍了数字音频基础(上)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(上)| 学习笔记
|
存储 人工智能 算法
数字音频基础(下)| 学习笔记
快速学习数字音频基础(下),介绍了数字音频基础(下)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(下)| 学习笔记
|
Java 关系型数据库 MySQL
入门案例(使用的资源介绍)|学习笔记
快速学习入门案例(使用的资源介绍)
入门案例(使用的资源介绍)|学习笔记
|
关系型数据库 数据库 开发者
第五课(二)|学习笔记
快速学习第五课(二)
102 0
第五课(二)|学习笔记
|
存储 数据库 开发者
第五课(三)|学习笔记
快速学习第五课(三)
141 0
第五课(三)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(三)|学习笔记
快速学习课时3 :高级能力和算法效果优化
152 0
课时3 :高级能力和算法效果优化(三)|学习笔记
|
自然语言处理 算法 机器人
课时3 :高级能力和算法效果优化(二)|学习笔记
快速学习课时3 :高级能力和算法效果优化
119 0
课时3 :高级能力和算法效果优化(二)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(一)|学习笔记
快速学习课时3 :高级能力和算法效果优化
103 0
课时3 :高级能力和算法效果优化(一)|学习笔记
|
分布式计算 算法 数据可视化
房源画像实验演示(上)|学习笔记
快速学习房源画像实验演示(上)
511 0
房源画像实验演示(上)|学习笔记