【Flume】（六）Flume 开发实战案例分享1-阿里云开发者社区

【Flume】（六）Flume 开发实战案例分享1

2022-06-13 264

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Flume】（六）Flume 开发实战案例分享1

文章目录

一、监控端口数据官方案例

1.1 案例需求：

1.2 需求分析：

1.3 实现步骤：

1．安装 telnet 工具

2．判断 44444 端口是否被占用

3．创建 Flume Agent 配置文件 flume-telnet-logger.conf

4．先开启 flume 监听端口

5．使用 telnet 工具向本机的 44444 端口发送内容

6．在 Flume 监听页面观察接收数据情况

二、实时读取本地文件到HDFS案例

2.1 案例需求：

2.2 需求分析：

2.3 实现步骤：

1．Flume 要想将数据输出到 HDFS，必须持有 Hadoop 相关 jar 包

2．创建 flume-file-hdfs.conf 文件

3．执行监控配置

4．开启 Hadoop 和 Hive 并操作 Hive 产生日志

5．在 HDFS 上查看文件。

三、实时读取目录文件到 HDFS 案例

3.1 案例需求：

3.2 需求分析：

3.3 实现步骤：

1．创建配置文件 flume-dir-hdfs.conf

2．启动监控文件夹命令

3．向 upload 文件夹中添加文件

4．查看 HDFS 上的数据

5．等待 1s，再次查询 upload 文件夹

四、单数据源多出口案例(选择器)

4.1 案例需求：

4.2 需求分析：

4.3 实现步骤：

1．创建 flume-file-flume.conf

2．创建 flume-flume-hdfs.conf

3．创建 flume-flume-dir.conf

4．执行配置文件

5．启动 Hadoop 和 Hive

6．检查 HDFS 上数据

7．检查/opt/module/datas/flume3 目录中数据

五、单数据源多出口案例(Sink 组)

5.1 案例需求：

5.2 需求分析：

5.3 实现步骤：

0．准备工作

1．创建 flume-netcat-flume.conf

2．创建 flume-flume-console1.conf

3．创建 flume-flume-console2.conf

4．执行配置文件

5．使用 telnet 工具向本机的 44444 端口发送内容

6．查看 Flume2 及 Flume3 的控制台打印日志

六、多数据源汇总案例

6.1 案例需求：

6.2 需求分析：

6.3 实现步骤：

0．准备工作

1．创建 flume1-logger-flume.conf

2．创建 flume2-netcat-flume.conf

3．创建 flume3-flume-logger.conf

4．执行配置文件

5．在 hadoop103 上向/opt/module 目录下的 group.log 追加内容

6．在 hadoop102 上向 44444 端口发送数据

7．检查 hadoop104 上数据

一、监控端口数据官方案例

1.1 案例需求：

首先，Flume 监控本机 44444 端口，然后通过 telnet 工具向本机 44444 端口发送消息，最后 Flume 将监听的数据实时显示在控制台。

1.2 需求分析：

1.3 实现步骤：

1．安装 telnet 工具

将 rpm 软件包 (xinetd-2.3.14-40.el6.x86_64.rpm 、 telnet-0.17-48.el6.x86_64.rpm 和 telnet-server-0.17-48.el6.x86_64.rpm)拷入/opt/software 文件夹下面。执行 RPM 软件包安装命令：

sudo rpm -ivh xinetd-2.3.14-40.el6.x86_64.rpm 
sudo rpm -ivh telnet-0.17-48.el6.x86_64.rpm 
sudo rpm -ivh telnet-server-0.17-48.el6.x86_64.rpm

2．判断 44444 端口是否被占用

sudo netstat -tunlp | grep 44444

功能描述：netstat 命令是一个监控 TCP/IP 网络的非常有用的工具，它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。

基本语法：netstat [选项]

选项参数：

-t 或--tcp：显示 TCP 传输协议的连线状况；
-u 或--udp：显示 UDP 传输协议的连线状况； 
-n 或--numeric：直接使用 ip 地址，而不通过域名服务器； 
-l 或--listening：显示监控中的服务器的 Socket； 
-p 或--programs：显示正在使用 Socket 的程序识别码和程序名称；

3．创建 Flume Agent 配置文件 flume-telnet-logger.conf

在 flume 目录下创建 job 文件夹并进入 job 文件夹。

[root@hadoop102 flume]$ mkdir job 
[root@hadoop102 flume]$ cd job/

在 job 文件夹下创建 Flume Agent 配置文件 flume-telnet-logger.conf。

[root@hadoop102 job]$ touch flume-telnet-logger.conf

在 flume-telnet-logger.conf 文件中添加如下内容。

[root@hadoop102 job]$ vim flume-telnet-logger.conf

添加内容如下：

# Name the components on this agent 
a1.sources = r1 
a1.sinks = k1 
a1.channels = c1 
# Describe/configure the source 
a1.sources.r1.type = netcat 
a1.sources.r1.bind = localhost 
a1.sources.r1.port = 44444 
# Describe the sink 
a1.sinks.k1.type = logger 
# Use a channel which buffers events in memory 
a1.channels.c1.type = memory 
a1.channels.c1.capacity = 1000 
a1.channels.c1.transactionCapacity = 100 
# Bind the source and sink to the channel 
a1.sources.r1.channels = c1 
a1.sinks.k1.channel = c1

注：配置文件来源于官方手册 http://flume.apache.org/FlumeUserGuide.html

配置文件解析：

4．先开启 flume 监听端口

[root@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-telnet-logger.conf -Dflume.root.logger=INFO,console

参数说明：

--conf conf/ ：表示配置文件存储在 conf/目录
--name a1 ：表示给 agent 起名为 a1
--conf-file job/flume-telnet.conf ：flume 本次启动读取的配置文件是在 job 文件夹下 的 flume-telnet.conf 文件。
-Dflume.root.logger==INFO,console ： -D 表 示 flume 运 行 时 动 态 修 改 flume.root.logger 参数属性值，并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、 info、warn、error。

5．使用 telnet 工具向本机的 44444 端口发送内容

[root@hadoop102 ~]$ telnet localhost 44444

6．在 Flume 监听页面观察接收数据情况

二、实时读取本地文件到HDFS案例

2.1 案例需求：

实时监控 Hive 日志，并上传到 HDFS 中。

2.2 需求分析：

2.3 实现步骤：

1．Flume 要想将数据输出到 HDFS，必须持有 Hadoop 相关 jar 包

将 commons-configuration-1.6.jar、

hadoop-auth-2.7.2.jar、

hadoop-common-2.7.2.jar、

hadoop-hdfs-2.7.2.jar、

commons-io-2.4.jar、

htrace-core-3.1.0-incubating.jar

拷贝到/opt/module/flume/lib 文件夹下。

2．创建 flume-file-hdfs.conf 文件

创建文件

[root@hadoop102 job]$ touch flume-file-hdfs.conf

注：要想读取 Linux 系统中的文件，就得按照 Linux 命令的规则执行命令。由于 Hive 日志在 Linux 系统中所以读取文件的类型选择：exec 即 execute 执行的意思。表示执行 Linux 命令来读取文件。

[root@hadoop102 job]$ vim flume-file-hdfs.conf

添加如下内容

# Name the components on this agent 
a2.sources = r2 
a2.sinks = k2 
a2.channels = c2
# Describe/configure the source 
a2.sources.r2.type = exec 
a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log 
a2.sources.r2.shell = /bin/bash -c
# Describe the sink 
a2.sinks.k2.type = hdfs 
a2.sinks.k2.hdfs.path = hdfs://hadoop102:9000/flume/%Y%m%d/%H
#上传文件的前缀 
a2.sinks.k2.hdfs.filePrefix = logs- 
#是否按照时间滚动文件夹 
a2.sinks.k2.hdfs.round = true 
#多少时间单位创建一个新的文件夹 
a2.sinks.k2.hdfs.roundValue = 1 
#重新定义时间单位 
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳 
a2.sinks.k2.hdfs.useLocalTimeStamp = true 
#积攒多少个 Event 才 flush 到 HDFS 一次 
a2.sinks.k2.hdfs.batchSize = 1000 
#设置文件类型，可支持压缩 
a2.sinks.k2.hdfs.fileType = DataStream 
#多久生成一个新的文件 
a2.sinks.k2.hdfs.rollInterval = 600 
#设置每个文件的滚动大小 
a2.sinks.k2.hdfs.rollSize = 134217700 
#文件的滚动与 Event 数量无关 
a2.sinks.k2.hdfs.rollCount = 0 
#最小冗余数 
a2.sinks.k2.hdfs.minBlockReplicas = 1
# Use a channel which buffers events in memory 
a2.channels.c2.type = memory 
a2.channels.c2.capacity = 1000 
a2.channels.c2.transactionCapacity = 100 
# Bind the source and sink to the channel 
a2.sources.r2.channels = c2 
a2.sinks.k2.channel = c2

3．执行监控配置

[root@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

4．开启 Hadoop 和 Hive 并操作 Hive 产生日志

[root@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh 
[root@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh 
[root@hadoop102 hive]$ bin/hive 
hive (default)>

5．在 HDFS 上查看文件。

【Flume】（六）Flume 开发实战案例分享1

文章目录

一、监控端口数据官方案例

1.1 案例需求：

1.2 需求分析：

1.3 实现步骤：

二、实时读取本地文件到HDFS案例

2.1 案例需求：

2.2 需求分析：

2.3 实现步骤：

热门文章

最新文章

相关课程

相关电子书

相关实验场景