KeyValueTextInputFormat(案例分析)| 学习笔记

简介: 快速学习 KeyValueTextInputFormat(案例分析)

开发者学堂课程【Hadoop 分布式计算框架 MapReduc:KeyValueTextInputFormat 案例实现学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1504


KeyValueTextInputFormat(案例分析)

 

目录:

一、特性

二、使用案例

三、需求分析

 

一、特性

每一行均为一条记录,被分隔符分割为 key,value。 可以通过在驱动类中设置confset(KeyValueLineRecordReader:KEY_ _VALUE_ SEPERATOR, "t"),来设定分隔符。默认分隔符是 tab (\t)。以下是一个示例,输入是一个包含4条记录的分片。其中一>表示一个(水平方向的)制表符。

line1一>Rich learning form

line2一-> Intell igent learning engine

line3一->Learning more conven ient

line4一>From the real demand for more close to the enterprise

每条记录表示为以下键值对:

(line1,Rich learning forn}

(line2, Intelligent learn ing engine)

(line3, Learning more convenient)

(line4,From the real denand for more close to the enterprise)

此时的键是每行排在制表符之前的 Text 序列。

让天下没方难学的技术。


二、使用案例

1.需求。

统计输入文件中每一行的第一个单词相同的行数。。

(1)输入数据。

banzhang ni haou

xihuan hadoop banzhang-banzhang ni haor

xihuan hadoop banzhange

(2)期望结果数据. .

banzhang 2

xihuan    2


三、需求分析

1、需求:统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao

xihuan hadoop banzhang

banzhang ni hao

xihuan hadoop banzhang

3、期望输出数据

banzhang 2

xihuan 2

4、Map 阶段

banzhang ni hao

( 1 )设置 key 和 value

<banzhang,1>

( 2 )写出

5、Reduce 阶段

<banzhang,1>

<banzhang,1>

( 1 )汇总

<banzhang,2>

(2)写出

6、Driver

//( 1 )设置切割符

conf . set (KeyValueLineRecordRea der . KEY VALUE SEPERATOR, " ") ;

// ( 2 )设置输入格式

job.setInputFormatClass(KeyValue TextInput Format.class);

相关文章
|
6月前
|
前端开发 数据挖掘
【SPSS】频数分析和基本描述统计量详细操作教程(附实战案例)
【SPSS】频数分析和基本描述统计量详细操作教程(附实战案例)
2066 0
|
存储 人工智能 算法
数字音频基础(下)| 学习笔记
快速学习数字音频基础(下),介绍了数字音频基础(下)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(下)| 学习笔记
|
存储 开发者
数字音频基础(中)| 学习笔记
快速学习数字音频基础(中),介绍了数字音频基础(中)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(中)| 学习笔记
|
编解码 开发者
数字音频基础(上)| 学习笔记
快速学习数字音频基础(上),介绍了数字音频基础(上)系统机制, 以及在实际应用过程中如何使用。
数字音频基础(上)| 学习笔记
|
Java 关系型数据库 MySQL
入门案例(使用的资源介绍)|学习笔记
快速学习入门案例(使用的资源介绍)
入门案例(使用的资源介绍)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(一)|学习笔记
快速学习课时3 :高级能力和算法效果优化
101 0
课时3 :高级能力和算法效果优化(一)|学习笔记
|
自然语言处理 算法 机器人
课时3 :高级能力和算法效果优化(二)|学习笔记
快速学习课时3 :高级能力和算法效果优化
119 0
课时3 :高级能力和算法效果优化(二)|学习笔记
|
机器学习/深度学习 自然语言处理 算法
课时3 :高级能力和算法效果优化(三)|学习笔记
快速学习课时3 :高级能力和算法效果优化
150 0
课时3 :高级能力和算法效果优化(三)|学习笔记
|
分布式计算 算法 数据可视化
房源画像实验演示(上)|学习笔记
快速学习房源画像实验演示(上)
508 0
房源画像实验演示(上)|学习笔记
|
存储 SQL 分布式计算
实操10分钟实现一个简单的推荐架构(二)|学习笔记
快速学习实操10分钟实现一个简单的推荐架构(二)
实操10分钟实现一个简单的推荐架构(二)|学习笔记