《Flume日志收集与MapReduce模式》一1.3 HDFS与流式数据/日志的问题-阿里云开发者社区

开发者社区> 华章计算机> 正文

《Flume日志收集与MapReduce模式》一1.3 HDFS与流式数据/日志的问题

简介:
+关注继续查看

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.3节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.3 HDFS与流式数据/日志的问题

HDFS并不是真正的文件系统,至少从传统的认识来说不是这样,对于通常的文件系统来说,很多我们认为理所当然的东西并不适合于HDFS,比如挂载。这使得将流式数据装载进Hadoop中变得有些复杂。
在通常的Portable Operating System Interface(POSIX)风格的文件系统中,如果打开文件并写入数据,那么在文件关闭前它会一直存在于磁盘上。也就是说,如果另一个程序打开了相同的文件并开始读取,那么它会读取到写入器写到磁盘上的数据。此外,如果该写入进程中断,那么写到磁盘上的任何部分都是可用的(有可能不完整,但确实是存在的)。
在HDFS中,文件只作为目录项存在,在文件关闭前,其长度一直显示为0。这意味着如果在一段时间内将数据写到文件中但却没有将其关闭,那么一旦客户端出现网络中断,你就什么都得不到了,只有一个空白文件而已。你会得出这样一个结论,即最好编写小文件,这样就能尽快将其关闭了。
问题在于Hadoop并不喜欢过多的小文件。由于HDFS元数据保存在NameNode的内存中,因此创建的文件越多,所需的RAM就越多。从MapReduce的角度来看,小文件会导致效率低下。通常情况下,每个Mapper都会被分配单个文件块作为输入(除非使用了某些压缩编码)。如果有过多的小文件,那么与待处理的数据相比,启动工作进程的代价就过高了。这种碎片还会导致更多的Mapper任务,使得总的Job运行时间增加。
在决定写入到HDFS的周期时需要考虑这些因素。如果计划保留数据较短的时间,那么可以使用较小的文件。然而,如果计划保留数据较长的时间,那么可以使用较大的文件或是做一些周期性的清理工作,将小文件压缩为少量的大文件,使得它们更加适合于MapReduce。毕竟,你只是写入一次数据,但却要在这些数据上运行MapReduce任务成百上千次。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute
概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累。 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的
6538 0
日志采集框架Flume、Flume介绍、概述、运行机制、Flume采集系统结构图(1、简单结构、复杂结构)
1. 日志采集框架Flume 1.1 Flume介绍 1.1.1 概述 1.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 2.Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 3.一般的采集需求,通过对flume的简单配置即可实现
2551 0
模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中
1.采集日志文件时一个很常见的现象 采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中。 1.1.根据需求,首先定义一下3大要素: 采集源,即source—监控日志文件内容更新:exec ‘tail -F file’ 下沉目标,即sink—HDFS文件系统:hdfs sink Source和sink之
6651 0
log4j配置单独日志文件输出
log4j.logger.batteryHistory=ERROR,BD log4j.appender.BD=org.apache.log4j.FileAppender log4j.appender.
852 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载