eTextInputFormat(案例分析)| 学习笔记

简介: 快速学习 eTextInputFormat(案例分析)

开发者学堂课程【Hadoop 分布式计算框架 MapReduceFilelnputFormat 切片机制和配置参数】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1504


eTextInputFormat(案例分析)

 

目录:

一、特性

二、使用案例

三、需求分析

 

一、特性

每一行均为一条记录,被分隔符分割为 key,value。 可以通过在驱动类中设置confset(KeyValueLineRecordReader:KEY_ _VALUE_ SEPERATOR, "t"),来设定分隔符。默认分隔符是 tab (\t)。以下是一个示例,输入是一个包含4条记录的分片。其中一>表示一个(水平方向的)制表符。

line1一>Rich learning form

line2一-> Intell igent learning engine

line3一->Learning more conven ient

line4一>From the real demand for more close to the enterprise

每条记录表示为以下键值对:

(line1,Rich learning forn}

(line2, Intelligent learn ing engine)

(line3, Learning more convenient)

(line4,From the real denand for more close to the enterprise)

此时的键是每行排在制表符之前的 Text 序列。

让天下没方难学的技术。


二、使用案例

1.需求。

统计输入文件中每一行的第一个单词相同的行数。。

(1)输入数据。

banzhang ni haou

xihuan hadoop banzhang-banzhang ni haor

xihuan hadoop banzhange

(2)期望结果数据. .

banzhang 2

xihuan    2


三、需求分析

1、需求:统计输入文件中每一行的第一个单词相同的行数。

2、输入数据

banzhang ni hao

xihuan hadoop banzhang

banzhang ni hao

xihuan hadoop banzhang

3、期望输出数据

banzhang 2

xihuan 2

4、Map 阶段

banzhang ni hao

( 1 )设置 key 和 value

<banzhang,1>

( 2 )写出

5、Reduce 阶段

<banzhang,1>

<banzhang,1>

( 1 )汇总

<banzhang,2>

(2)写出

6、Driver

//( 1 )设置切割符

conf . set (KeyValueLineRecordRea der . KEY VALUE SEPERATOR, " ") ;

// ( 2 )设置输入格式

job.setInputFormatClass(KeyValue TextInput Format.class);

相关文章
|
10月前
|
UED
利唐i人事、北森、Moka大比拼:谁才是HR数字化转型的最佳拍档?
在HR数字化转型中,选择合适的SaaS平台至关重要。利唐i人事、北森和Moka是市场上的热门选项。利唐i人事作为一站式HR管理平台,功能涵盖招聘、考勤、薪酬等多环节,操作便捷且性价比高,适合各规模企业;北森专注于人才管理,专业性强但学习成本高;Moka擅长招聘管理,但功能相对单一。综合来看,利唐i人事凭借全面性、友好体验和良好口碑,成为HR数字化转型的优选拍档。
|
12月前
|
数据可视化 数据挖掘 定位技术
Pandas数据应用:地理信息系统
本文介绍如何使用Pandas结合地理信息系统(GIS)进行空间数据分析与可视化。Pandas是Python强大的数据处理库,而GIS用于捕获、存储和分析地理数据。通过安装`geopandas`、`matplotlib`等库,可以实现数据加载、转换、空间索引查询、投影变换及可视化等功能。文章详细讲解了常见问题及解决方案,并提供代码案例,帮助读者高效处理地理数据,支持决策分析。
268 26
|
Linux API C++
c++多线程——互斥锁
c++多线程——互斥锁
Vue3,setup的使用需要搭配return进行使用,Vue3中带setup的script的标签和不带能不能合并到一起,export default不能放到setup里会报错,script
Vue3,setup的使用需要搭配return进行使用,Vue3中带setup的script的标签和不带能不能合并到一起,export default不能放到setup里会报错,script
|
存储 缓存 安全
在 Service Worker 中配置缓存策略
Service Worker 是一种可编程的网络代理,允许开发者控制网页如何加载资源。通过在 Service Worker 中配置缓存策略,可以优化应用性能,减少加载时间,提升用户体验。此策略涉及缓存的存储、更新和检索机制。
|
缓存 监控 算法
Python性能优化面试:代码级、架构级与系统级优化
【4月更文挑战第19天】本文探讨了Python性能优化面试的重点,包括代码级、架构级和系统级优化。代码级优化涉及时间复杂度、空间复杂度分析,使用内置数据结构和性能分析工具。易错点包括过度优化和滥用全局变量。架构级优化关注异步编程、缓存策略和分布式系统,强调合理利用异步和缓存。系统级优化则涵盖操作系统原理、Python虚拟机优化和服务器调优,需注意监控系统资源和使用编译器加速。面试者应全面理解这些层面,以提高程序性能和面试竞争力。
255 1
Python性能优化面试:代码级、架构级与系统级优化
|
人工智能 API 语音技术
MoneyPrinterPlus:AI自动短视频生成工具,赚钱从来没有这么容易过
MoneyPrinterPlus使用AI大模型技术,一键批量生成各类短视频。一键混剪短视频,批量生成短视频不是梦。自动把视频发布到抖音,快手,小红书,视频号上。
MoneyPrinterPlus:AI自动短视频生成工具,赚钱从来没有这么容易过
|
消息中间件 负载均衡 Kafka
Kafka 实现负载均衡与故障转移:深入分析 Kafka 的架构特点与实践
【8月更文挑战第24天】Apache Kafka是一款专为实时数据处理和流传输设计的高性能消息系统。其核心设计注重高吞吐量、低延迟与可扩展性,并具备出色的容错能力。Kafka采用分布式日志概念,通过数据分区及副本机制确保数据可靠性和持久性。系统包含Producer(消息生产者)、Consumer(消息消费者)和Broker(消息服务器)三大组件。Kafka利用独特的分区机制实现负载均衡,每个Topic可以被划分为多个分区,每个分区可以被复制到多个Broker上,确保数据的高可用性和可靠性。
600 2
|
Ubuntu 网络安全 Windows
ubuntu16.04版本安装emqx的mqtt服务
ubuntu16.04版本安装emqx的mqtt服务
397 0
|
机器学习/深度学习 存储 人工智能
【OpenVI-视觉评价系列之MOS评价实战篇】手机存储不够用,清理照片太痛苦?MOS评价帮你挑选“垃圾”照片
MOS(Mean Opinion Score)是一种常用的主观质量评价方法,常用于视频、图像等多媒体领域中的质量评价。MOS视觉评价通常是通过让受试者观看视频/图像,对视频的清晰度、锐度、颜色饱和度、运动模糊、噪声等方面进行评价。然而,MOS视觉评价也存在一些局限,例如需要大量的受试者,评估时间较长等。因此,近年来,研究者们也开始探索使用客观评价方法来替代或补充MOS视觉评价。
1061 2
【OpenVI-视觉评价系列之MOS评价实战篇】手机存储不够用,清理照片太痛苦?MOS评价帮你挑选“垃圾”照片