flume应该思考的问题

简介: flume应该思考的问题

flume是比较常用的大数据技术,那么学习flume,我们还需要思考flume,这样理解才能在遇到问题的时候,更容易解决,使用起来更加的得心应手。下面介绍了flume的相关内容及个人的理解。


flume应用



一般来讲,我们接触flume可能更早一些。flume如何安装可参考

让你快速认识flume及安装和使用flume1.5传输数据(日志)到hadoop2.2

http://www.aboutyun.com/forum.php?mod=viewthread&tid=7949

如果你安装测试过flume,可以知道flume可以传递数据到另外的地方。比如我们可以传递本地文件到hadoop文件,比如搜集日志到hadoop,然后通过mapreduce或则spark处理。这也是比较常见的。



flume解析



flume有哪些内容,我们刚开始学习的时候,几乎都是复制黏贴的方式。对于它们几乎不怎么理解,或则只是停留在表面的理解。所以导致我们产生异常或则错误的时候,就不知道怎么解决了。

这里解析下flume,可以知道我们在干什么,我们遇到错误的时候,能够知道哪里出现了问题。


channel的作用



flume传递数据,包含三个组件:source,channel,sink.

那么如果我们来开发flume,我们会如何开发。好像channel这个不是必须的。因为有了数据源source和数据传递目标sink,应该就可以了。为何还需要channel。感觉channel是多此一举。

从正常的角度来说channel确实是不需要的。但是有一个前提,source和sink要保持同步。也就说,source发送一条数据,sink需要立即消费和保存一条数据。


下图是正常flume


image.png


下图是去掉channel的flume。如果一旦数据源频率过快,sink来不及消费保存数据,那么就会造成丢失数据。


f389fc4d89a7ff34cae68fa481bcbeac.jpg


如何定制flume



一个灵活的程序,都是可以配置的,最常见的是xml格式文件,当然也可以是其它格式,普通txt也是可以的。所以我们看到无论是那种开源技术,都是可以配置的。甚至对于刚入门的初学者来说,就认为配置文件是必须的。

所以我们这里所说的定制,是对flume的的定义。那么flume该如何定制。

那就是通过对应source、channel、sink的定义。

这里我们只接贴出配置文件

agent1表示代理名称
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1
#配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.spoolDir=/usr/aboutyunlog
agent1.sources.source1.channels=channel1
agent1.sources.source1.fileHeader = false
#配置sink1
agent1.sinks.sink1.type=hdfs
agent1.sinks.sink1.hdfs.path=hdfs://master:8020/aboutyunlog
agent1.sinks.sink1.hdfs.fileType=DataStream
agent1.sinks.sink1.hdfs.writeFormat=TEXT
agent1.sinks.sink1.hdfs.rollInterval=4
agent1.sinks.sink1.channel=channel1
#配置channel1
agent1.channels.channel1.type=file
agent1.channels.channel1.checkpointDir=/usr/aboutyun_tmp123
agent1.channels.channel1.dataDirs=/usr/aboutyun_tmp

这里解析下上面的配置:首先是对flume的agent的配置。对于代理取了一个名字agent1。

agent1里面包含三个组件,这三个组件也分别取一个名字:source1,sink1,channel1

agent1表示代理名称

agent1.sources=source1

agent1.sinks=sink1

agent1.channels=channel1

我们为什么给他们取名字,是为了方便下面我们给他们定义。不取名字会带来什么后果。如下图,如果多个channel或则sink,我们就无法区分和定义了。

0ef5d868cbf7911fc39d7edeca270d74.jpg


取名之后,我们分别对他们定义。

#配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.spoolDir=/usr/aboutyunlog
agent1.sources.source1.channels=channel1
agent1.sources.source1.fileHeader = false


先来解析一条

agent1.sources.source1.type=spooldir

上面是说agent1的数据源,source1的类型是spooldir。上面看上去很复杂,但是其实就定义了那么几项:

spoolDir,channels,fileHeader 分别是目录,使用哪个channel,及是否添加Header等信息。


sink同样的道理

#配置sink1
agent1.sinks.sink1.type=hdfs
agent1.sinks.sink1.hdfs.path=hdfs://master:8020/aboutyunlog
agent1.sinks.sink1.hdfs.fileType=DataStream
agent1.sinks.sink1.hdfs.writeFormat=TEXT
agent1.sinks.sink1.hdfs.rollInterval=4
agent1.sinks.sink1.channel=channel1

配置了sink1的类型,hdfs路径,file类型,格式,滚动时间,使用channel等。

通过上面,我们或许就明白了,flume的各种配置。也能轻易读懂别人是如何配置的。



flume与kafka整合



flume与kafka整合应该是用的比较多的,而且这也是一个难点。这里只是简单说下。

1.kafka作为数据源

kafka作为数据源其实kafka消费者,从kafka topic读取消息。如果你有多个kafka数据源运行,你可以配置他们为同一个Consumer Group。它们只能读取topics的一个分区.

这里只介绍下一些必须的属性,更多可参考官网

属性名称:

type值为 org.apache.flume.source.kafka.KafkaSource

kafka.bootstrap.servers值为kafka作为数据源的broker的列表。格式为host:端口例如localhost:9092

kafka.consumer.group.id:这个不是必须的。默认为flume。

kafka.topics:kafka消费者从topics 列表读取消息

kafka.topics.regex:定义了一组topic.比 kafka.topics有更高的优先级.是对kafka.topics的重写。

过时的属性

topic,groupId,zookeeperConnect分别替换为

kafka.topics,kafka.consumer.group.id,kafka.bootstrap.servers 链接 kafka cluster

下面举两个例子

多个topic的配置

tier1.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
tier1.sources.source1.channels = channel1
tier1.sources.source1.batchSize = 5000
tier1.sources.source1.batchDurationMillis = 2000
tier1.sources.source1.kafka.bootstrap.servers = localhost:9092
tier1.sources.source1.kafka.topics = test1, test2
tier1.sources.source1.kafka.consumer.group.id = custom.g.id

使用正则订阅topic

tier1.sources.source1.type = org.apache.flume.source.kafka.KafkaSource
tier1.sources.source1.channels = channel1
tier1.sources.source1.kafka.bootstrap.servers = localhost:9092
tier1.sources.source1.kafka.topics.regex = ^topic[0-9]$
# the default kafka.consumer.group.id=flume is used


当然还有使用认证的订阅,大家可以参考官网

http://flume.apache.org/FlumeUserGuide.html


2.Kafka作为Sink

也就是说flume将数据发送到kakfa的topic。支持的kafka的版本为Kafka 0.9.x,0.8.x不在支持。


属性介绍

type必须设置为org.apache.flume.sink.kafka.KafkaSink

kafka.bootstrap.servers:连接的broker 列表

kafka.topic:默认default-flume-topic,发布数据所到的topic

过时的属性

brokerList替换为kafka.bootstrap.servers

topic替换为kafka.topic

batchSize替换为kafka.flumeBatchSize

requiredAcks替换为kafka.producer.acks

配置例子

a1.sinks.k1.channel = c1
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.topic = mytopic
a1.sinks.k1.kafka.bootstrap.servers = localhost:9092
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = 1
a1.sinks.k1.kafka.producer.linger.ms = 1
a1.sinks.ki.kafka.producer.compression.type = snappy




3.kafka作为channel

events存储在kafka集群,kafka提供高可用和副本,因此如果客户端或则kafka broker崩溃的话,可以立即使用其它sinks。Kafka channel可以用于多种场景。1.Flume source 和sink--为events提供可靠及高可用的channel

2.lume source 和过滤器,没有sink.--为其它应用程序,允许写flume events到kafka topic

3. Flume sink, 和没有source--它是低延迟,容错的方式去发送events,从kafka到Flume sinks 比如HDFS, HBase or Solr

flume整合需要的kafka的版本为 0.9 及以后版本。channel 配置发生了变化,比以前的flume 版本。


flume兼容以前版本,但是过时的属性会有警告。

属性


type值为org.apache.flume.channel.kafka.KafkaChannel

kafka.bootstrap.servers值为hostname:port,可以是brokers list的一部分。但是值得注意的至少两个,这样可以高可用。

kafka.topic默认为flume-channel        

过时的属性

brokerList替换为hostname:port

topic替换为kafka.topic

groupId替换为 kafka.consumer.group.id

readSmallestOffset替换为  kafka.consumer.auto.offset.reset

例子:

a1.channels.channel1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.channel1.kafka.bootstrap.servers = kafka-1:9092,kafka-2:9092,kafka-3:9092
a1.channels.channel1.kafka.topic = channel1
a1.channels.channel1.kafka.consumer.group.id = flume-consumer



除了上面kafka与flume整合,很多人对于kafka和flume有些混淆,下面内容,贴出来分享给大家

网上有一些好的内容,拿出来分享给大家

Kafka 与 Flume 很多功能确实是重复的。以下是评估两个系统的一些建议:Kafka 是一个通用型系统。你可以有许多的生产者和消费者分享多个主题。相反地,Flume 被设计成特定用途的工作,特定地向 HDFS 和 HBase 发送出去。Flume 为了更好地为 HDFS 服务而做了特定的优化,并且与 Hadoop 的安全体系整合在了一起。基于这样的结论,Hadoop 开发商 Cloudera 推荐如果数据需要被多个应用程序消费的话,推荐使用 Kafka,如果数据只是面向 Hadoop 的,可以使用 Flume。
Flume 拥有许多配置的来源 (sources) 和存储池 (sinks)。然后,Kafka 拥有的是非常小的生产者和消费者环境体系,Kafka 社区并不是非常支持这样。如果你的数据来源已经确定,不需要额外的编码,那你可以使用 Flume 提供的 sources 和 sinks,反之,如果你需要准备自己的生产者和消费者,那你需要使用 Kafka。
Flume 可以在拦截器里面实时处理数据。这个特性对于过滤数据非常有用。Kafka 需要一个外部系统帮助处理数据。
无论是 Kafka 或是 Flume,两个系统都可以保证不丢失数据。然后,Flume 不会复制事件。相应地,即使我们正在使用一个可以信赖的文件通道,如果 Flume agent 所在的这个节点宕机了,你会失去所有的事件访问能力直到你修复这个受损的节点。使用 Kafka 的管道特性不会有这样的问题。Flume 和 Kafka 可以一起工作的。如果你需要把流式数据从 Kafka 转移到 Hadoop,可以使用 Flume 代理 (agent),将 kafka 当作一个来源 (source),这样可以从 Kafka 读取数据到 Hadoop。你不需要去开发自己的消费者,你可以使用 Flume 与 Hadoop、HBase 相结合的特性,使用 Cloudera Manager 平台监控消费者,并且通过增加过滤器的方式处理数据。

来自:

Kafka与 Flume 的区别记录分享

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21563



 Flume :管道 ----个人认为比较适合有多个生产者场景,或者有写入Hbase、HDFS和kafka需求的场景。
   Kafka :消息队列-----由于Kafka是Pull模式,因此适合有多个消费者的场景。

cnblogs

http://www.cnblogs.com/ibyte/p/5830715.html


目录
相关文章
|
SQL 存储 druid
关于数据中台的几点思考
关于数据中台的几点思考
|
消息中间件 Kafka 流计算
Flink读取Kafka报Error sending fetch request
实时计算Flink读取消息队列Kafka,flink日志中出现Error sending fetch request (sessionId=1510763375, epoch=12890978) to node 103: {}. org.apache.flink.kafka.shaded.org.apache.kafka.common.errors.DisconnectException: null
12795 3
Flink读取Kafka报Error sending fetch request
|
SQL 缓存 Java
Flink SQL 核心解密 —— 提升吞吐的利器 MicroBatch
之前我们在 Flink SQL 中支持了 MiniBatch, 在支持高吞吐场景发挥了重要作用。今年我们在 Flink SQL 性能优化中一项重要的改进就是升级了微批模型,我们称之为 MicroBatch,也叫 MiniBatch2.0。
5702 0
|
Ubuntu Linux Docker
Docker安装和卸载
一:卸载旧版本 老版本的Docker被称为docker或docker-engine。如果安装了这些,请卸载它们以及相关的依赖项。 $ sudo yum remove docker \ docker-common \ docker-selinux \ docker-engine 如果yum报告说没有安装这些软件包,那么也行。
19967 0
|
存储 SQL 分布式计算
Parquet与ORC高性能列式存储
Parquet与ORC高性能列式存储
997 0
Parquet与ORC高性能列式存储
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
15925 134
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
12月前
|
Kubernetes Linux 开发者
深入探索容器化技术——Docker 的实战应用
深入探索容器化技术——Docker 的实战应用
179 7
|
SQL 关系型数据库 MySQL
如何确认SQL用了索引:详细技巧与方法
在数据库管理中,索引是提高SQL查询性能的重要手段
2153 5
|
存储 大数据 OLAP
一文快速搞懂Kudu到底是什么
一文快速搞懂Kudu到底是什么
2819 0
|
存储 负载均衡 算法
使用LVS搭建集群实现负载均衡(一)
【8月更文挑战第8天】使用LVS搭建集群实现负载均衡
604 5
下一篇
开通oss服务