Flume核心概念-阿里云开发者社区

Flume核心概念

2023-04-27 189

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： Flume 是一个分布式、可靠、高可用的服务，它能够将不同数据源的海量日志数据进行高效收集、汇聚、移动，最后存储到一个中心化数据存储系统（HDFS、 HBase等）中，它是一个轻量级的工具，简单、灵活、容易部署，适应各种方式日志收集并支持 failover 和负载均衡。

简介

Flume 是一个分布式、可靠、高可用的服务，它能够将不同数据源的海量日志数据进行高效收集、汇聚、移动，最后存储到一个中心化数据存储系统（HDFS、 HBase等）中，它是一个轻量级的工具，简单、灵活、容易部署，适应各种方式日志收集并支持 failover 和负载均衡。

功能

支持在日志系统中定制各类数据发送方，用于收集数据。
Flume 提供对数据进行简单处理，并写到各种数据接收方(可定制)的能力。

特点

Flume 可以高效率的将多个网站服务器中收集的日志信息存入 HDFS/HBase 中。
使用 Flume，我们可以将从多个服务器中获取的数据迅速的移交给 Hadoop 中。
支持各种接入资源数据的类型以及接出数据类型。
支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等。
可以被水平扩展。

核心组件

组件	说明
Event	1.Flume 使用 Event 对象来作为传递数据的格式，是内部数据传输的最基本单元； 2.一个数据单元，由消息头（Header）和消息体（body）组成； 3.Header 是 key/value 形式的，可以用来制造路由决策或携带其他结构化信息(如事件的时间戳或事件来源的服务器主机名)； 4.Body 是一个字节数组，包含了实际的内容。
Agent	每一个 Agent 独立的 Flume 进程，由 Source、Channel、Sink 三个组件组成（从客户端哪儿接收收集,或者从其他的 Agent 哪儿接收,然后迅速的将获取的数据传给下一个目的节点 Agent）
Source	1.数据源收集组件，一个 Flume 源负责一个外部源（数据发生器），如一个 web 服务器传递给他的事件； 2.该外部源将它的事件以 Flume 可以识别的格式发送到 Flume 中； 3.当一个 Flume 源接收到一个事件时，其将通过一个或者多个通道存储该事件
Channel	1.数据管道，接收来自 Source 组件传递的 Event，即通道会缓存该事件直到该事件被 Sink 组件处理； 2.Channel 是一种短暂的存储容器，它将从 Source 处接收到的 Event 格式的数据缓存起来，直到它们被 Sink 消费掉，它在 Source 和 Sink 间起着一共桥梁的作用，Channel 是一个完整的事务，这一点保证了数据在收发的时候的一致性。并且它可以和任意数量的 Source 和 Sink 链接； 3.Flume 通常选择 FileChannel（本地磁盘的事务实现模式,保证数据不会丢失(WAL实现)），而不使用 Memory Channel(内存存储事务,吞吐率极高,但存在丢数据风险)
Sink	1.Sink 成功取出 Event 后，会将 Event 从 Channel 中移除，并将 Event 放置到外部数据介质上（通过Flume HDFS Sink将数据放置到 HDFS 中，或者放置到下一个 Flume 的 Source（Avro，用于Agant 之间通信），等到下一个 Flume 处理）； 2.支持多种不同类型的 Sink。
Interceptor	1.拦截器用于 Source 的一组拦截器，按照预设的顺序必要地方对 Event 进行过滤和自定义的处理逻辑实现。 2.在app(应用程序日志)和 Source 之间的，对app日志进行拦截处理的。也即在日志进入到 Source 之前，对日志进行一些包装、清新过滤等等动作。 3.Flume 的拦截器也是chain形式的，可以对一个 Source 指定多个拦截器，按先后顺序依次处理

Agent结构

单个 Agent 结构
数据由一个 Agent 往下一个 Agent 传递
多个 Agent 收集数据往一个 Agent 传递
Agent 的一个 Source 往多个 Sink 并将数据存储到不同的存储器上

支持多种Source

Source 是数据收集端，负责捕捉数据并将数据封装到 Event 里，最后将数据推送到 Channel 中，Flume 提供了很多内置的 Source：

Source类型	说明
Exec Source	执行shell命令方式，如tail -F
Spool DirectorySource	监控目录新文件数据
Thrift Source	支持Thrift协议
Svslog Source	读取svslog数据，支持UDP和TCP两种协议
Avro Source	支持AVRO协议
HTTP Source	基于HTTP POST或GET数据源
Netcat Source	监控流经端口的
JMS Source	从jms系统中读取数据

支持多种Channel

Channel 是连接 Source 和 Sink 的组件，可以当做一个缓冲区或数据队列，它将数据存储在内存或磁盘上，直到 Sink 处理完该事件，比较常用的 Channel，MemoryChannel 和 FileChannel：

Channel类型	说明
Memory Channel	将Event数据存储在内存
File Channel	将Event数据存储在磁盘中
JDBC Channel	将数据持久到数据库中
Kafka Channel	将数据往Kafka存储
Spillable Memory Channel	将数据持久化到内存和磁盘，当内存队列满了后将数据持久化到磁盘
Custome Channel	自定义Channel

支持多种Sink

Sink 从 Channel 中取出事件，将数据发送到别处，可以存储到本地文件、HDFS、Kafka、HBase 等，也可以是其它 Agent 的 Source:

Sink类型	说明
HDFS Sink	数据写入 HDFS
HBase Sink	数据写入HBase数据库
Avro Sink	将数据转换为Avro Event，发送到配置的RPC端口上
Thrift Sink	将数据转换为Thrift Event，发送到配置的RPC端口上
Logger Sink	将数据写入到日志文件中
ElasticSearch Sink	将数据发送到搜索服务器集群
Custom Sink	自定义Sink

支持多种拦截器

Flume 提供了拦截器，当 Source 指定一个拦截器后，拦截器会得到 Event 数据，可以在拦截器中过滤提取数据，一个 Source 可以指定多个拦截器成为拦截器chain：

拦截器类型	说明
TimestampInterceptor	时间戳拦截器，Header中添加一个key叫:timestamp,value为当前的时间戳
HostInterceptor	主机名拦截器，Header中添加一个key叫:host,value为当前机器的hostname或者ip
StaticInterceptor	静态拦截器，Header中添加自定义的key和value
RegexFilteringInterceptor	正则过滤拦截器，通过正则来清洗或包含匹配的events
RegexExtractorInterceptor	正则提取拦截器，通过正则表达式来在Header中添加指定的key,value则为正则匹配的部分
UUIDInterceptor	UUID拦截器
CustomInterceptor	自定义拦截器

Flume核心概念

简介

功能

特点