Flume 之 Interceptors

简介:

Flume has the capability to modify/drop events in-flight.this done with the help of interceptors. Interceptors are classes that implement org.apache.flume.interceptor interface.An Interceptor can modify or even drop events bases on any criteria chosen by the developer of the interceptor.Flume supports bulider class banes in the configuration the otder in which the interceptors is passed to the next interceptor in th chain terceptors can modify or drop evebts if an interceptor needs to drop events it just does not return that event in the list that it returns if it is drop all events then it simply returns can empty list interceptors ate named components here is an example of how they are created through configuration;

Timestamp interceptor 和Host Interceptor 这两个拦截器
分别给每个event头部插入 时间戳 和代理agent的IP

Static Interceptor
允许在event的头部追加一个静态的值
Remove Header Interceptor
用于移除头部静态定义 如果不符合匹配到标准则不会移除归结到一点就是看你定义的移除内容
UUID INterceptor
给所有拦截的event 给定一个独立唯一的身份号码
Morephline Interceptor
这个拦截器过滤events 通过一个 morphline configuration文件
这个文件定义着一个管式指令链

Search and Replace Interceptor
这个拦截器提供了一个子串基础 查询替换 的基本功能 通过java的常规表达

Backtracking/group capture is also avaliable.这个拦截器的规则在java的 Matcher.replaceAll()方法.

Regex Filtering Interceptor Regex Extractor Interceptor
正则表达式拦截器 正则表达式提取器
正则表达式匹配对时间
提供的正则表达式可以应用于事件或者排除事件

相关文章
|
6月前
|
存储 分布式计算 监控
【Flume】Flume 监听日志文件案例分析
【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析
|
6月前
|
存储 运维 监控
【Flume】flume 日志管理中的应用
【4月更文挑战第4天】【Flume】flume 日志管理中的应用
|
消息中间件 数据采集 SQL
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
|
3月前
|
存储 数据采集 数据处理
【Flume拓扑揭秘】掌握Flume的四大常用结构,构建强大的日志收集系统!
【8月更文挑战第24天】Apache Flume是一个强大的工具,专为大规模日志数据的收集、聚合及传输设计。其核心架构包括源(Source)、通道(Channel)与接收器(Sink)。Flume支持多样化的拓扑结构以适应不同需求,包括单层、扇入(Fan-in)、扇出(Fan-out)及复杂多层拓扑。单层拓扑简单直观,适用于单一数据流场景;扇入结构集中处理多源头数据;扇出结构则实现数据多目的地分发;复杂多层拓扑提供高度灵活性,适合多层次数据处理。通过灵活配置,Flume能够高效构建各种规模的数据收集系统。
58 0
|
27天前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
39 2
|
27天前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
36 1
|
3月前
|
存储 分布式计算 大数据
【Flume的大数据之旅】探索Flume如何成为大数据分析的得力助手,从日志收集到实时处理一网打尽!
【8月更文挑战第24天】Apache Flume是一款高效可靠的数据收集系统,专为Hadoop环境设计。它能在数据产生端与分析/存储端间搭建桥梁,适用于日志收集、数据集成、实时处理及数据备份等多种场景。通过监控不同来源的日志文件并将数据标准化后传输至Hadoop等平台,Flume支持了性能监控、数据分析等多种需求。此外,它还能与Apache Storm或Flink等实时处理框架集成,实现数据的即时分析。下面展示了一个简单的Flume配置示例,说明如何将日志数据导入HDFS进行存储。总之,Flume凭借其灵活性和强大的集成能力,在大数据处理流程中占据了重要地位。
69 3
|
6月前
|
SQL 数据采集 数据挖掘
nginx+flume网络流量日志实时数据分析实战
nginx+flume网络流量日志实时数据分析实战
175 0