Flume案例——日志分析采集系统

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 大数据平台每天处理业务系统产生的大量日志数据,一般而言,这些系统需要具有以下特征:1. 构建业务系统和日志分析系统的桥梁,并将它们之间的关联解耦;2. 支持近实时的在线分析系统和类似于 Hadoop 之类的离线分析系统;3. 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。

概述


大数据平台每天处理业务系统产生的大量日志数据,一般而言,这些系统需要具有以下特征:

  1. 构建业务系统和日志分析系统的桥梁,并将它们之间的关联解耦;
  2. 支持近实时的在线分析系统和类似于 Hadoop 之类的离线分析系统;
  3. 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。

日志分析采集系统模块


  • 数据采集模块:负责从各节点上实时采集数据,选用 Flume-NG 来实现。 Flume-NG 提供了丰富的 Source、Channel、Sink 实现,各种数据源的引入只要变更配置就可实现。
  • 数据接入模块:由于采集数据的速度和数据处理的速度不一定同步(类似于生产者消费者模式),因此添加一个消息中间件来作为缓冲,这里选用 Kafka 来实现。Kafka 适用于对数据管道的吞吐量、可用性要求都很高的解决方案,需要编程实现数据的生产和消费。
  • 流式计算模块:对采集到的数据进行实时分析,选用 Storm 来实现。
  • 数据输出模块:对分析后的结果持久化,可以使用 HDFS、MySQL 等。

采用 Flume 作为数据的生产者,将生产的消息数据(日志数据、业务请求数据等)通过 Kafka Sink 发布到 Kafka 中。然后再由流式计算程序 Storm 做实时分析,这时就需要将在 Storm 的 Spout 中读取 Kafka 中的消息,然后交由具体的 Spot 组件去分析处理。同时 Storm 已经自带了一个集成 Kafka 的外部插件程序 storm-kafka。最后将计算结果持久化到 Hadoop 或 MySQL 中。

示例配置


Kafka 集群配置


  • 使用3台机器搭建 Kafka 集群,在每台机器上添加如下配置:
# vim /etc/hosts
192.168.111.238 master
192.168.111.239 slave1
192.168.111.240 slave2
  • 在安装 Kafka 集群时,没有使用 Kafka 自带的 Zookeeper,而是独立安装了一个 Zookeeper 集群,也是使用这3台机器,并且保证 Zookeeper 集群正常运行。
  • 在 master 上准备 Kafka 安装文件,执行如下命令:
5. cd /usr/local/
6. tar xvzf kafka_2.11-1.0.0.tgz
7. ln -s /usr/local/kafka_2.11-1.0.0 /usr/local/kafka
• 修改配置文件 /usr/local/kafka/config/server.properties
8. broker.id=0
9. zookeeper.connect=master:2181,slave1:2181,slave2:2181/kafka

说明 :

默认 Kafka 会使用 ZooKeeper 默认的 / 路径,导致有关 Kafka 的 ZooKeeper 配置就会散落在根路径下面,如果有其他的应用也在使用此 ZooKeeper 集群,查看 ZooKeeper 中的数据会不直观,所以指定一个 chroot 路径,直接在 zookeeper.connect 配置项中指定

  • 需要手动在 ZooKeeper 中创建路径 /kafka,使用如下命令连接到任意一台 ZooKeeper 服务器:
1. cd /usr/local/zookeeper
2. bin/zkCli.sh
3. create /kafka ''
• 将配置好的安装文件同步到其他的 slave1、slave2 节点上:
4. scp -r /usr/local/kafka_2.11-1.0.0/ slave1:/usr/local/
5. scp -r /usr/local/kafka_2.11-1.0.0/ slave2:/usr/local/
• 分别修改配置文件/usr/local/kafka/config/server.properties内容如下
6. # 因为Kafka集群需要保证各个Broker的id在整个集群中必须唯一,需要调整这个配置项的值
7. broker.id=1  # 在slave1修改
8. 
9. broker.id=2  # 在slave2修改
• 在集群中的 master、slave1、slave2 这三个节点上分别启动 Kafka,分别执行如下命令:
10. bin/kafka-server-start.sh /usr/local/kafka/config/server.properties &
• 通过查看日志,或者检查进程状态,保证 Kafka 集群启动成功。

配置 Flume agent,将 Flume 与 Kafka 整合, 配置文件为 flume-conf.properties


agent.sources = logsrc
agent.channels = memchannel
agent.sinks = kafkasink
# configure the source
agent.sources.logsrc.type = exec
agent.sources.logsrc.command = tail -F /data/logs/component_role.log
agent.sources.logsrc.shell = /bin/sh -c
agent.sources.logsrc.batchSize = 50
agent.sources.logsrc.channels = memchannel
# configure the sink
agent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkasink.brokerList=master:9092, slave1:9092,slave2:9092
agent.sinks.kafkasink.topic=mytopic
agent.sinks.kafkasink.requiredAcks = 1
agent.sinks.kafkasink.batchSize = 20
agent.sinks.kafkasink.channel = memchannel
# configure the channel
agent.channels.memchannel.type = memory
agent.channels.memchannel.capacity = 1000

启动该 Flume 节点


cd /usr/local/apache-flume-1.7.0-bin
./bin/flume-ng agent -n agent -c ./conf -f ./conf/flume-conf.properties -Dflume.monitoring.type=http -Dflume.monitoring.port=10100 -Dflume.root.logger=DEBUG,console

动态追加日志数据,模拟日志输出,进行测试


动态追加日志数据,执行命令向 /data/logs/component_role.log 添加数据:

echo  "测试代码" >>  /data/logs/component_role.log
echo  "检测Flume+Kafka数据管道通畅" >>  /data/logs/component_role.log

验证 Kafka 数据接收结果


root@ubuntu238:/usr/local/kafka_2.11-1.0.0# ./bin/kafka-console-consumer.sh --zookeeper master:2181,slave1:2181,slave2:2181/kafka  --topic mytopic --from-beginning
Using the ConsoleConsumer with old consumer is deprecated and will be removed in a future major release. Consider using the new consumer by passing [bootstrap-server] instead of [zookeeper].
  1. 测试代码
  2. 检测Flume+Kafka数据管道通畅
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
6天前
|
存储 安全 Java
Spring Boot 3 集成Spring AOP实现系统日志记录
本文介绍了如何在Spring Boot 3中集成Spring AOP实现系统日志记录功能。通过定义`SysLog`注解和配置相应的AOP切面,可以在方法执行前后自动记录日志信息,包括操作的开始时间、结束时间、请求参数、返回结果、异常信息等,并将这些信息保存到数据库中。此外,还使用了`ThreadLocal`变量来存储每个线程独立的日志数据,确保线程安全。文中还展示了项目实战中的部分代码片段,以及基于Spring Boot 3 + Vue 3构建的快速开发框架的简介与内置功能列表。此框架结合了当前主流技术栈,提供了用户管理、权限控制、接口文档自动生成等多项实用特性。
36 8
|
1月前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
|
2月前
|
存储 Linux Docker
centos系统清理docker日志文件
通过以上方法,可以有效清理和管理CentOS系统中的Docker日志文件,防止日志文件占用过多磁盘空间。选择合适的方法取决于具体的应用场景和需求,可以结合手动清理、logrotate和调整日志驱动等多种方式,确保系统的高效运行。
221 2
|
3月前
|
XML JSON 监控
告别简陋:Java日志系统的最佳实践
【10月更文挑战第19天】 在Java开发中,`System.out.println()` 是最基本的输出方法,但它在实际项目中往往被认为是不专业和不足够的。本文将探讨为什么在现代Java应用中应该避免使用 `System.out.println()`,并介绍几种更先进的日志解决方案。
85 1
|
3月前
|
监控 网络协议 安全
Linux系统日志管理
Linux系统日志管理
74 3
|
3月前
|
监控 应用服务中间件 网络安全
#637481#基于django和neo4j的日志分析系统
#637481#基于django和neo4j的日志分析系统
50 4
|
3月前
|
存储 数据可视化 安全
一个简单案例,带你看懂GC日志!
一个简单案例,带你看懂GC日志!
一个简单案例,带你看懂GC日志!
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
60 2
|
3月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
66 1
|
4月前
|
Prometheus Cloud Native Go
Golang语言之Prometheus的日志模块使用案例
这篇文章是关于如何在Golang语言项目中使用Prometheus的日志模块的案例,包括源代码编写、编译和测试步骤。
85 3
Golang语言之Prometheus的日志模块使用案例