flume 对指定日志进行读取

简介: flume 对指定日志进行读取

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1577字,阅读大概需要3分钟

一、 任务描述

本实验任务主要完成基于ubuntu环境使用flume对指定目录下的日志文件进行读取,通过完成本实验任务,要求学生了解并掌握flume对指定数据文件内容的获取,为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、 任务目标

掌握flume的应用原理

 掌握flume对日志信息的采集过程


三、 任务环境

本次环境是:Ubuntu16.04+flume-ng-1.5.0-cdh5.3.6


四、 任务分析

Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理操作,并写到各种storage。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。本试验就是通过学习flume工具实现对指定目录下所有的日志文件数据信息进行采集并实时把采集到的信息保存到hdfs中指定的位置。


♥ 知识链接

数据存储方式

 对于历史数据,我们基于Flume的Spooling方式将数据转存在HDFS中;对于“准实时“数据,我们基于Flume的Tail方式将数据转存在kafka中。


五、 任务实施

步骤1、操作步骤

通过执行命令start-all.sh启动服务,在任意指定目录下创建一个文件,例如在/simple目录下执行命令:touch a2.conf并文件中写入内容如下

1.  a2.sources = r1
2.  a2.channels = c1
3.  a2.sinks = k1
4.  a2.sources.r1.type = exec
5.  a2.sources.r1.command = tail -F /simple/a.log
6.  a2.channels.c1.type = memory
7.  a2.channels.c1.capacity = 1000
8.  a2.channels.c1.transactionCapacity = 100
9.  a2.sinks.k1.type = hdfs
10. a2.sinks.k1.hdfs.path =  hdfs://localhost:9000/flume/aa.log
11. a2.sinks.k1.hdfs.filePrefix = events-
12. a2.sinks.k1.hdfs.fileType = DataStream
13. a2.sources.r1.channels = c1
14. a2.sinks.k1.channel = c1

在任意指定目录下创建一个文件,例如在/simple目录下执行命令:touch a.log并向文件中写入内容“aaaaaa“。如图1所示

2e29a3e4e4a644629aaa4850dfa585a6.png



图1 编辑文件


切换到bin目录下,执行flume命令:./flume-ng agent -n a2 -f /simple/a2.conf -c ../conf/ -Dflume.root.logger=INFO,console。如图2所示


ab8a31b7e3114c7387342769b1099abc.png


图2 启动flume


另外再开启一个终端,通过执行命令:echo ‘bbbbbbbbbb’>>/simple/a.log向a.log文件中追加内容。如图3所示。然后可以通过执行hdfs系统的命令查看hdfs中生成的文件并发现hdfsc指定的目录文件下的内容增多。如图4所示

b189048e079b428a8c8e2c7fa700f5bd.png



图3 向文件追加内容


图4 查看hdfs上文件内容

9405e4d2cce74fd4b98d593045b3639d.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
4小时前
|
存储 运维 监控
【Flume】flume 日志管理中的应用
【4月更文挑战第4天】【Flume】flume 日志管理中的应用
|
4小时前
|
存储 分布式计算 监控
【Flume】Flume 监听日志文件案例分析
【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析
|
9月前
|
消息中间件 数据采集 SQL
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
|
4小时前
|
SQL 数据采集 数据挖掘
nginx+flume网络流量日志实时数据分析实战
nginx+flume网络流量日志实时数据分析实战
112 0
|
9月前
|
消息中间件 数据采集 JSON
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)
|
12月前
|
运维 网络协议 Ubuntu
flume 通过syslog协议读取系统日志
flume 通过syslog协议读取系统日志
|
12月前
|
机器学习/深度学习 运维 Ubuntu
flume 采集指定端口的日志
flume 采集指定端口的日志
|
消息中间件 分布式计算 监控
Flume案例——日志分析采集系统
大数据平台每天处理业务系统产生的大量日志数据,一般而言,这些系统需要具有以下特征: 1. 构建业务系统和日志分析系统的桥梁,并将它们之间的关联解耦; 2. 支持近实时的在线分析系统和类似于 Hadoop 之类的离线分析系统; 3. 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。
|
消息中间件 监控 Kafka
flume搜集日志:如何解决实时不断追加的日志文件及不断增加的文件个数问题
flume搜集日志:如何解决实时不断追加的日志文件及不断增加的文件个数问题
207 0
flume搜集日志:如何解决实时不断追加的日志文件及不断增加的文件个数问题
|
分布式计算 MaxCompute
《零基础实现Flume收集网站日志数据到MaxCompute》电子版地址
零基础实现Flume收集网站日志数据到MaxCompute
71 0
《零基础实现Flume收集网站日志数据到MaxCompute》电子版地址