Flume系统

简介: Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输系统,起源于Cloudera。【2月更文挑战第8天】

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输系统,起源于Cloudera。image.png
Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目。
image.png

包括:

  1. Agent:Agent用于采集数据,是Flume中产生数据流的地方。Agent会将产生的数据流传输到Collector。
  2. Collector:Collector用于对数据进行聚合,往往会产生一个更大的流。
  3. Source:Source是数据流的起点,可以是console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源。
  4. Sink:Sink是数据流的终点,可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系统)等。
  5. Master:Flume Master用于管理数据流的配置。

一般情况案例;

  1. 收集系统日志:Flume可以收集服务器、应用程序和服务的日志,并将它们汇总到一个中央存储系统中,以便进行分析和审计。
  2. 收集网络数据:Flume可以作为网络数据收集器,从网络上的各种来源收集数据,例如Web服务器、数据库服务器、消息队列等。
  3. 数据聚合和处理:Flume可以将来自多个数据源的数据进行聚合和处理,以便进行进一步的分析和处理。
  4. 数据传输:Flume可以将数据从收集器传输到存储系统,如HDFS、HBase、Kafka等。image.png

  5. 实时数据处理:Flume可以实时收集和处理数据,以满足实时分析和监控的需求。

  6. 安全性和审计:Flume可以收集和存储系统、应用程序和网络数据,以支持安全性和审计需求。
  7. 物联网应用:Flume可以收集来自物联网设备的数据,例如传感器数据、智能家居数据等,以便进行数据分析和处理。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
5月前
61 Flume采集系统结构图
61 Flume采集系统结构图
16 0
61 Flume采集系统结构图
|
4月前
|
存储 Java 关系型数据库
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
52 1
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
|
11月前
|
运维 网络协议 Ubuntu
flume 通过syslog协议读取系统日志
flume 通过syslog协议读取系统日志
|
12月前
|
消息中间件 分布式计算 监控
Flume案例——日志分析采集系统
大数据平台每天处理业务系统产生的大量日志数据,一般而言,这些系统需要具有以下特征: 1. 构建业务系统和日志分析系统的桥梁,并将它们之间的关联解耦; 2. 支持近实时的在线分析系统和类似于 Hadoop 之类的离线分析系统; 3. 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。
|
存储 监控 中间件
【Flume中间件】(3)实时监听文件到HDFS系统
【Flume中间件】(3)实时监听文件到HDFS系统
100 0
【Flume中间件】(3)实时监听文件到HDFS系统
|
存储 分布式计算 安全
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
269 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统2
|
消息中间件 缓存 监控
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
344 0
【Flume】(一)Flume 高可用的、高可靠的、分布式日志收集系统1
|
消息中间件 Web App开发 监控
Flume+Kafka+Flink+Redis构建大数据实时处理系统:实时统计网站PV、UV展示
1.大数据处理的常用方法 大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: 在互联网应用中,不管是哪一种处理方式,其基本的数据来源都是日志数据,例如对于web应用来说,则可能是用户的访问日志、用户的点击日志等。
21422 15
|
大数据 缓存 Java
Flume 日志收集系统 Spooldir-Source HDFS-sink
日志即log,记录发生的事件。以Nginx为例,有error_log和access_log 2个日志。access_log是访问日志,每条访问记录会产生几百字节的数据,随着访问量增加,日志文件会越来越大,必须定期清理日志。
1576 0
|
消息中间件 监控 Kafka
Flume+Kafka+Storm+Redis构建大数据实时处理系统
在实际中,基于每个人的工作环境不同,业务不同,因此业务系统的复杂度也不尽相同,相对来说,这里统计PV、UV的业务是比较简单的,但也足够让我们对大数据实时处理系统有一个基本的、清晰的了解与认识,是的,它不再那么神秘了。
10683 0

相关实验场景

更多