第 1 章 Flume 概述

1.1 Flume 定义

Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。

骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！

1.2 Flume 基础架构

Flume 组成架构如下图所示

1.2.1 Agent

Agent 是一个 JVM 进程，它以事件的形式将数据从源头送至目的。

Agent 主要有 3 个部分组成，Source、Channel、Sink。

1.2.2 Source

Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

1.2.3 Sink

Sink 不断地轮询 Channel 中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。

Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

1.2.4 Channel

Channel 是位于 Source 和 Sink 之间的缓冲区。因此，Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的，可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。

Flume 自带两种 Channel：Memory Channel 和 File Channel。

Memory Channel 是内存中的队列。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么 Memory Channel 就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。

File Channel 将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

传输单元，Flume 数据传输的基本单元，以 Event 的形式将数据从源头送至目的地。

Event 由 Header 和 Body 两部分组成，Header 用来存放该 event 的一些属性，为 K-V 结构，Body 用来存放该条数据，形式为字节数组。

第 2 章 Flume 入门

2.1 Flume 安装部署

2.1.1 安装地址

（1）Flume 官网地址：http://flume.apache.org/

（2）文档查看地址：http://flume.apache.org/FlumeUserGuide.html

（3）下载地址：http://archive.apache.org/dist/flume/

2.1.2 安装部署

（1）将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的/opt/software 目录下

（2）解压 apache-flume-1.9.0-bin.tar.gz 到/opt/module/目录下

[atguigu@hadoop102 software]$ tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/

3）修改 apache-flume-1.9.0-bin 的名称为 flume

[atguigu@hadoop102 module]$ mv /opt/module/apache-flume-1.9.0-bin/opt/module/flume

（4）将 lib 文件夹下的 guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3

[atguigu@hadoop102 lib]$ rm /opt/module/flume/lib/guava-11.0.2.jar

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

1）案例需求：

使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。

2）需求分析：

3）实现步骤：

（1）安装 netcat 工具

[atguigu@hadoop102 software]$ sudo yum install -y nc

骚戴理解：在yum命令中，-y选项表示在安装软件包时自动确认所有提示信息，而不需要手动输入"yes"或回车键确认。这使得批量安装软件包更加方便和快捷。因此，在执行 yum install -y 命令时，系统会默认确认所有的提示信息。

（2）判断 44444 端口是否被占用

[atguigu@hadoop102 flume-telnet]$ sudo netstat -nlp | grep 44444

（3）创建 Flume Agent 配置文件 flume-netcat-logger.conf

（4）在 flume 目录下创建 job 文件夹并进入 job 文件夹。

[atguigu@hadoop102 flume]$ mkdir job

[atguigu@hadoop102 flume]$ cd job/

（5）在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf。

[atguigu@hadoop102 job]$ vim flume-netcat-logger.conf

（6）在 flume-netcat-logger.conf 文件中添加如下内容。

添加内容如下：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100 事务容量
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

注：配置文件来源于官方手册 http://flume.apache.org/FlumeUserGuide.html

骚戴理解：注意下面的第一个channel是有s的，第二个是没有s的，说明sources可以有多个channel，但是sink只能和一个channel相连接

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

（7）开启 flume 监听端口（第二个开启）

第一种写法：

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name 
a1 --conf-file job/flume-netcat-logger.conf -
Dflume.root.logger=INFO,console

第二种写法（推荐）：

[atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f 
job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console1. [atguigu

参数说明：

--conf/-c：表示配置文件存储在 conf/目录

--name/-n：表示给 agent 起名为 a1（ agent 起名要和上面的flume-netcat-logger.conf保持一致）

--conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的flume-netcat-logger.conf文件。

-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、error。

骚戴理解：上面的-c是指的flume自己的配置文件conf的相对路径，而不是自己写的flume-netcat-logger.conf文件的路径

（8）使用 netcat 工具开启服务端（提前开启）

[atguigu@hadoop102 ~]$ nc -lk 44444

（9）使用 netcat 工具向本机的 44444 端口发送内容

[atguigu@hadoop102 ~]$ nc localhost 44444
hello 
atguigu

（10）在 Flume 监听页面观察接收数据情况

2.2.2 实时监控单个追加文件

1）案例需求：实时监控 Hive 日志，并上传到 HDFS 中

2）需求分析：

3）实现步骤：

（1）Flume 要想将数据输出到 HDFS，依赖 Hadoop 相关 jar 包

检查/etc/profile.d/my_env.sh 文件，确认 Hadoop 和 Java 环境变量配置正确

JAVA_HOME=/opt/module/jdk1.8.0_212
HADOOP_HOME=/opt/module/ha/hadoop-3.1.3
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export PATH JAVA_HOME HADOOP_HOME

（2）创建 flume-file-hdfs.conf 文件

[atguigu@hadoop102 job]$ vim flume-file-hdfs.conf

添加如下内容

# Name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2
# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log
# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9820/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k2.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k2.hdfs.rollCount = 0
# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100
# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2

骚戴理解：

要想读取 Linux 系统中的文件，就得按照 Linux 命令的规则执行命令。由于 Hive日志在 Linux 系统中所以读取文件的类型选择：exec 即 execute 执行的意思。表示执行Linux 命令来读取文件。

tail -F /opt/module/hive/logs/hive.log它的意思是实时跟踪并输出/logs/hive.log文件的末尾（即最新的日志信息），并且在文件发生变化时会自动更新。其中，“-F”参数表示跟踪文件，而不是简单地读取文件。

a2.sinks.k2.hdfs.path中的%Y%m%d/和 %H 是时间格式化字符串，表示按照年月日时刻创建不同的目录存储 flume 数据。例如，如果 flume 在 2022 年 10 月 1 日 12 点启动，那么数据将被写入到hdfs://hadoop102:9820/flume/20221001/12/ 目录下

a2.sinks.k2.hdfs.round = true和a2.sinks.k2.hdfs.roundValue = 1和a2.sinks.k2.hdfs.roundUnit = hour的意思就是每一个小时就生成一个新的文件夹，然后后面的数据就都放到这个新文件夹的文件里，注意这里是生成新的文件夹，不是文件！后面的配置才是文件！

a2.sinks.k2.hdfs.useLocalTimeStamp = true这个必须开启，因为前面的a2.sinks.k2.hdfs.path = hdfs://hadoop102:9820/flume/%Y%m%d/%H配置需要获取当前时间，也就是时间戳

a2.sinks.k2.hdfs.fileType 支持的类型有如下几种：

SequenceFile：SequenceFile 是 Hadoop 的二进制文件格式之一，用于存储序列化的键值对。它支持压缩和快速随机访问，适合于大数据集的存储和处理。

DataStream：DataStream 是 Hadoop 2.0 中新引入的一种文件格式，它支持追加写入和并发读取，并且不需要关闭文件流即可完成文件写入。这使得 DataStream 适合于实时数据流的处理。

Text：Text 是 Hadoop 最简单的文本文件格式，每行都是一个文本字符串。因为 Text 文件没有压缩和索引，所以适合小型数据集的存储和处理。

Avro：Avro 是一种数据交换格式，支持动态数据模式，可以根据需要添加、删除或更改字段。在 Hadoop 中，Avro 格式通常用于序列化复杂数据结构，例如 MapReduce 的输入和输出数据。

a2.sinks.k2.hdfs.rollInterval = 60的单位是秒，60s生成一个新文件，a2.sinks.k2.hdfs.rollSize = 134217700是接近128M生成一个新文件，a2.sinks.k2.hdfs.rollCount = 0表示不设置，以上三个参数可以看作一个整体，只要有一个设置了，就可以生效，如果等于0那就是不设置

注意：对于所有与时间相关的转义序列，Event Header 中必须存在以 “timestamp”的key（除非 hdfs.useLocalTimeStamp 设置为 true，此方法会使用 TimestampInterceptor 自动添加timestamp）。a3.sinks.k3.hdfs.useLocalTimeStamp = true

3）运行 Flume

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

（4）开启 Hadoop 和 Hive 并操作 Hive 产生日志

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
[atguigu@hadoop102 hive]$ bin/hive

5）在 HDFS 上查看文件。

2.2.3 实时监控目录下多个新文件

1）案例需求：使用 Flume 监听整个目录的文件，并上传至 HDFS

2）需求分析：

3）实现步骤：

（1）创建配置文件 flume-dir-hdfs.conf

创建一个文件

[atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf

添加如下内容

a3.sources = r3
a3.sinks = k3
a3.channels = c3
# Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/flume/upload
a3.sources.r3.fileSuffix = .COMPLETED
#是否有头文件
a3.sources.r3.fileHeader = true
#忽略所有以.tmp 结尾的文件，不上传
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)
# Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = 
hdfs://hadoop102:9820/flume/upload/%Y%m%d/%H
#上传文件的前缀
a3.sinks.k3.hdfs.filePrefix = upload-
#是否按照时间滚动文件夹
a3.sinks.k3.hdfs.round = true
#多少时间单位创建一个新的文件夹
a3.sinks.k3.hdfs.roundValue = 1
#重新定义时间单位
a3.sinks.k3.hdfs.roundUnit = hour
#是否使用本地时间戳
a3.sinks.k3.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a3.sinks.k3.hdfs.batchSize = 100
#设置文件类型，可支持压缩
a3.sinks.k3.hdfs.fileType = DataStream
#多久生成一个新的文件
a3.sinks.k3.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是 128M
a3.sinks.k3.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a3.sinks.k3.hdfs.rollCount = 0
# Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100
# Bind the source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

（2）启动监控文件夹命令

1. [atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name 
2. a3 --conf-file job/flume-dir-hdfs.conf

注意：在使用 Spooling Directory Source 时，不要在监控目录中创建并持续修改文件；上传完成的文件会以.COMPLETED 结尾；被监控文件夹每 500 毫秒扫描一次文件变动。

（3）向 upload 文件夹中添加文件

在/opt/module/flume 目录下创建 upload 文件夹

[atguigu@hadoop102 flume]$ mkdir upload

向 upload 文件夹中添加文件

[atguigu@hadoop102 upload]$ touch atguigu.txt
[atguigu@hadoop102 upload]$ touch atguigu.tmp
[atguigu@hadoop102 upload]$ touch atguigu.log

（4）查看 HDFS 上的数据

大数据技术之 Flume1

第 1 章 Flume 概述

1.1 Flume 定义

1.2 Flume 基础架构

1.2.1 Agent

1.2.2 Source

1.2.3 Sink

1.2.4 Channel

1.2.5 Event

第 2 章 Flume 入门

2.1 Flume 安装部署

2.1.1 安装地址

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

2.2.2 实时监控单个追加文件

2.2.3 实时监控目录下多个新文件

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据技术之 Flume1

第 1 章 Flume 概述

1.1 Flume 定义

1.2 Flume 基础架构

1.2.1 Agent

1.2.2 Source

1.2.3 Sink

1.2.4 Channel

1.2.5 Event

第 2 章 Flume 入门

2.1 Flume 安装部署

2.1.1 安装地址

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

2.2.2 实时监控单个追加文件

2.2.3 实时监控目录下多个新文件

热门文章

最新文章

相关课程

相关电子书

相关实验场景