《Flume日志收集与MapReduce模式》一1.2 Flume 1.X(Flume-NG)

简介:

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.2节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

1.2 Flume 1.X(Flume-NG)

Flume之所以会重构有很多原因,如果对细节感兴趣可以参考https://issues.apache.org/jira/browse/FLUME-728。一开始的重构分支最后变成了Flume 1.X的开发主线。
Flume 1.X最为明显的变化是不再使用中心化的配置Master/Masters与Zookeeper。Flume 0.9的配置有些过度烦琐,并且极易出错。此外,中心化的配置已经超出了Flume的目标范围。取代中心化配置的是一个简单的磁盘上的配置文件(不过配置文件是可插拔的,因此可以替换)。这些配置文件很容易通过诸如cf-engine、chef及puppet等工具分发。如果使用的是Cloudera分发包,那么可以通过Cloudera管理器来管理配置——最近其许可发生了变化,增加了节点限制,因此增加了吸引力。请确保不要手工管理这些配置,否则就要一直采用手工方式编辑这些文件了。
Flume 1.X的另一个主要差别是输入数据的读取与输出数据的写入现在由不同的工作线程(称为运行器)来处理了。在Flume 0.9中,输入线程也执行对输出的写入(故障恢复重试除外)。如果输出写入器很慢(而不仅仅是完全失败),那么它会阻塞Flume接收数据的能力。这种新的异步设计使得输入线程完全意识不到任何下游的问题。
本书介绍的Flume版本是1.3.1(也是本书撰写之际Flume的当前版本)。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
4月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
【本地模式】第一个Mapreduce程序-wordcount
|
5月前
|
分布式计算 资源调度 Hadoop
23 MAPREDUCE程序运行模式
23 MAPREDUCE程序运行模式
33 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
110 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
81 0
|
11月前
|
分布式计算 Ubuntu Hadoop
【集群模式】执行MapReduce程序-wordcount
因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例,所以需要传递的是 HDFS中的文件路径,所以我们需要修改上一节【本地模式】中 WordCountRunner类 的代码
|
11月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。
|
存储 分布式计算 安全
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
269 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
|
消息中间件 缓存 监控
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
344 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
|
分布式计算 监控 Hadoop
四十五、centos安装flume(集群模式)
四十五、centos安装flume(集群模式)
四十五、centos安装flume(集群模式)