使用EMR-Flume同步HDFS audit日志到HDFS

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。 本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。

使用EMR-Flume同步HDFS audit日志到HDFS

1.前言

E-MapReduce从3.19.0版本开始对EMR-Flume提供集群管理的功能。通过集群管理功能,可以在Web页面方便的配置和管理Flume Agent。
本文将使用EMR-Flume实时同步HDFS audit日志至HDFS,便于对HDFS操作记录进行离线统计和实时分析。

2.部署方案

2.1方案一

在master实例启动Flume agent,收集本地磁盘中的audit日志并sink到HDFS。
这个方案架构和配置比较简单,但是master实例本身部署了比较重要且对资源占用比较敏感的服务,比如Zookeeper,在master实例中HDFS读写操作如果占用过多资源会对这些服务产生影响。

2.2方案二

选取core实例启动Flume agent做sink HDFS的操作,在master实例启动Flume agent,收集本地磁盘中的audit日志通过Avro协议发送数据至core实例。
使用这个方案时,考虑到core实例上Flume运行的稳定性,可以选取多个core实例构成failover sink processor。
本文以方案二对操作流程作说明。

3.操作流程

3.1准备工作

创建E-MapReduce Hadoop集群,在可选服务中选择Flume。具体操作可参考创建集群

3.2 core实例配置并启动Flume Agent

比如在emr-worker-1节点进行操作,选择核心实例组进行配置,如下入所示

1

在配置页面设置如下

default-agent.sinks.default-sink.type hdfs
default-agent.channels.default-channel.type file
default-agent.sources.default-source.type avro
deploy_node_hostname emr-worker-1

在配置页面通过自定义配置添加如下配置:

default-agent.sinks.default-sink.hdfs.path 对于高可用集群,使用hdfs://emr-cluster/path形式的地址
default-agent.sinks.default-sink.hdfs.fileType DataStream
default-agent.sinks.default-sink.hdfs.rollSize 0
default-agent.sinks.default-sink.hdfs.rollCount 0
default-agent.sinks.default-sink.hdfs.rollInterval 86400
default-agent.sinks.default-sink.hdfs.batchSize 51200
default-agent.sources.default-source.bind 0.0.0.0
default-agent.sources.default-source.port 根据实际设置
default-agent.channels.default-channel.transactionCapacity 51200
default-agent.channels.default-channel.dataDirs channel存储event数据的路径
default-agent.channels.default-channel.checkpointDir 存储checkpoint的路径
default-agent.channels.default-channel.capacity 根据hdfs roll进行设置

说明:为避免生成过多小文件,通常以GB为单位生成HDFS文件,或者按天生成一个文件。此处按照时间来生成文件,可根据实际情况进行设置.

保存配置后启动Flume agent

2

3

4

查看操作历史里显示操作成功后,部署拓扑页面可以看到emr-worker-1节点的flume已经是started状态

5

emr-worker-1节点启动成功后,开始启动第二个worker节点。
同样的方式,比如在worker-2节点启动flume,修改配置项

deploy_node_hostname 节点的hostname
default-agent.sinks.default-sink.hdfs.path 对于高可用集群,使用hdfs://emr-cluster/path形式的地址

保存配置后,启动 All Components,指定机器为emr-worker-2。

3.3 master实例配置并启动Flume Agent

比如在emr-header-1节点进行操作,选择服务配置

6

配置agent如下

additional_sinks k1
deploy_node_hostname emr-header-1
default-agent.sources.default-source.type taildir
default-agent.sinks.default-sink.type avro
default-agent.channels.default-channel.type file

新增配置如下:

配置项
default-agent.sources.default-source.filegroups f1
default-agent.sources.default-source.filegroups.f1 /mnt/disk1/log/hadoop-hdfs/hdfs-audit.log.*
default-agent.sources.default-source.positionFile 存储position file的路径
default-agent.channels.default-channel.checkpointDir 存储checkpoint的路径
default-agent.channels.default-channel.dataDirs 存储event数据的路径
default-agent.channels.default-channel.capacity 根据实际情况设置
default-agent.sources.default-source.batchSize 2000
default-agent.channels.default-channel.transactionCapacity 2000
default-agent.sources.default-source.ignoreRenameWhenMultiMatching true
default-agent.sinkgroups g1
default-agent.sinkgroups.g1.sinks default-sink k1
default-agent.sinkgroups.g1.processor.type failover
default-agent.sinkgroups.g1.processor.priority.default-sink 10
default-agent.sinkgroups.g1.processor.priority.k1 5
default-agent.sinks.default-sink.hostname emr-worker-1节点的IP
default-agent.sinks.default-sink.port emr-worker-1节点Flume Agent的port
default-agent.sinks.k1.hostname emr-worker-2节点的IP
default-agent.sinks.k1.port emr-worker-2节点Flume Agent的port
default-agent.sinks.default-sink.batch-size 2000
default-agent.sinks.k1.batch-size 2000
default-agent.sinks.k1.type avro
default-agent.sinks.k1.channel default-channel

需要说明的是,Flume的taildir source在filegroups使用通配符匹配log4j的滚动日志时会有数据重复的问题,通过对EMR-Flume配置ignoreRenameWhenMultiMatching可以避免这种问题。
保存配置后,相同的方式指定机器为emr-header-1启动flume。
如果需要在emr-header-2节点启动Flume agent,只需对配置作如下修改

3.4查看同步结果

使用HDFS命令,可以看到同步的数据被写入FlumeData.${timestamp}形式的文件中,其中timestamp为文件创建的时间戳

7

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
14天前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
40 3
|
2月前
|
存储 数据采集 数据处理
【Flume拓扑揭秘】掌握Flume的四大常用结构,构建强大的日志收集系统!
【8月更文挑战第24天】Apache Flume是一个强大的工具,专为大规模日志数据的收集、聚合及传输设计。其核心架构包括源(Source)、通道(Channel)与接收器(Sink)。Flume支持多样化的拓扑结构以适应不同需求,包括单层、扇入(Fan-in)、扇出(Fan-out)及复杂多层拓扑。单层拓扑简单直观,适用于单一数据流场景;扇入结构集中处理多源头数据;扇出结构则实现数据多目的地分发;复杂多层拓扑提供高度灵活性,适合多层次数据处理。通过灵活配置,Flume能够高效构建各种规模的数据收集系统。
51 0
|
4月前
|
SQL 数据采集 DataWorks
DataWorks产品使用合集之pyodps的线程限制是什么意思
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks 数据可视化 安全
DataWorks产品使用合集之SLS日志中新增了存在iotId这个字段,同步的时候怎么手动增加
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
14天前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
36 2
|
14天前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
31 1
|
15天前
|
SQL 存储 关系型数据库
Mysql主从同步 清理二进制日志的技巧
Mysql主从同步 清理二进制日志的技巧
19 1
|
1月前
|
存储 分布式计算 资源调度
通过日志聚合将作业日志存储在HDFS中
如何通过配置Hadoop的日志聚合功能,将作业日志存储在HDFS中以实现长期保留,并详细说明了相关配置参数和访问日志的方法。
28 0
通过日志聚合将作业日志存储在HDFS中
|
2月前
|
存储 分布式计算 大数据
【Flume的大数据之旅】探索Flume如何成为大数据分析的得力助手,从日志收集到实时处理一网打尽!
【8月更文挑战第24天】Apache Flume是一款高效可靠的数据收集系统,专为Hadoop环境设计。它能在数据产生端与分析/存储端间搭建桥梁,适用于日志收集、数据集成、实时处理及数据备份等多种场景。通过监控不同来源的日志文件并将数据标准化后传输至Hadoop等平台,Flume支持了性能监控、数据分析等多种需求。此外,它还能与Apache Storm或Flink等实时处理框架集成,实现数据的即时分析。下面展示了一个简单的Flume配置示例,说明如何将日志数据导入HDFS进行存储。总之,Flume凭借其灵活性和强大的集成能力,在大数据处理流程中占据了重要地位。
63 3
|
2月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决