备案控制台

开发者社区大数据文章正文

大数据基础-Flume核心组件

2022-10-20 227

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Flume核心组件

Source

source：表示数据的来源。

Exec Source

用于文件监控，可以实时监控文件中新增内容，类似linux tail -F效果，注意tail -f和tail -F的区别

NetCat TCP/UDP Source

采集指定TCP、UDP端口的的数据，可以读取流经端口的每一行数据

Spooling Directory Source

采集文件夹中新增的文件，这个比较常用。

Kafka Source

从Kafka消息队列中采集数据

Channel

channel：接受source发送的数据，作为临时存储数据的管道

Memory Channel

使用内存作为存储数据的介质，优点是效率很高，因为不涉及磁盘IO，缺点是可能丢失数据，或者内存不够用的情况

File Channel

使用文件作为数据存储的介质，有点是数据不会丢失，缺点是相对内存来说效率较低，但是慢并没有想的那么慢，实际上还是比较常用的channel

Spilable Memory Channel

混合文件和内存作为存储介质，即优先把数据存储到内存中，当内存到达阈值后存储到文件，优点是解决内存不够用的问题，缺点是一样会存在数据丢失的风险

Sink

Logger Sink

将数据作为日志处理，可以选择直接打印到控制台或者写入文件，这种方式主要用于测试，方便看到效果。

HDFS Sink

将数据传输到HDFS中，这个是比较常见的，主要针对离线计算场景。

Kafka Sink

将数据传输到Kafka消息队列中，这个也是比较常见的，主要针对实时计算场景

，优点是数据不落盘，实时传输。

文章标签：

云原生大数据计算服务 MaxCompute

云消息队列 Kafka 版

消息中间件

流计算

监控

Linux

网络协议

Kafka

存储

大数据

关键词：

云原生大数据计算服务 MaxCompute flume

大数据Flume

Flume大数据

云原生大数据计算服务 MaxCompute组件

Flume组件

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

颜学长

目录

相关文章

赵渝强老师

|

3月前

|

数据采集缓存大数据

【赵渝强老师】大数据日志采集引擎Flume

Apache Flume 是一个分布式、可靠的数据采集系统，支持从多种数据源收集日志信息，并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成，通过Event封装数据，保障高效与可靠传输。

赵渝强老师

265 1 1

武子康

|

存储分布式计算 API

大数据-107 Flink 基本概述适用场景框架特点核心组成生态发展处理模型组件架构

大数据-107 Flink 基本概述适用场景框架特点核心组成生态发展处理模型组件架构

武子康

595 0 0

栈江湖

|

存储分布式计算 Java

踏上大数据第一步：flume

Flume 是一个分布式、可靠且高效的系统，用于收集、聚合和移动大量日志数据。它是 Apache 顶级项目，广泛应用于 Hadoop 生态系统中。Flume 支持从多种数据源（如 Web 服务器、应用服务器）收集日志，并将其传输到中央存储（如 HDFS、HBase）。其核心组件包括 Source、Channel 和 Sink，分别负责数据获取、临时存储和最终存储。本文还介绍了在 Ubuntu 20.04 上安装 Flume 1.9.0 的步骤，涵盖 JDK 安装、Flume 下载、解压、配置环境变量及验证安装等详细过程。

栈江湖

323 10 11

赵渝强老师

|

SQL 数据采集分布式计算

【赵渝强老师】基于大数据组件的平台架构

本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层：数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中，大数据平台层为核心，负责数据的存储和计算，支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型，应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。

赵渝强老师

1147 3 3

【赵渝强老师】基于大数据组件的平台架构

栈江湖

|

存储分布式计算大数据

Flume+Hadoop：打造你的大数据处理流水线

本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统（HDFS）。Flume是一个高可用、可靠的分布式系统，适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程，并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时，还提供了验证步骤，确保数据成功上传。最后，补充说明了使用文件模式作为channel以避免数据丢失的方法。

栈江湖

699 4 4

武子康

|

SQL 存储分布式计算

大数据-157 Apache Kylin 背景历程特点场景架构组件详解

大数据-157 Apache Kylin 背景历程特点场景架构组件详解

武子康

269 9 9

武子康

|

消息中间件监控 Java

大数据-109 Flink 体系结构运行架构 ResourceManager JobManager 组件关系与原理剖析

大数据-109 Flink 体系结构运行架构 ResourceManager JobManager 组件关系与原理剖析

武子康

276 1 1

赵渝强老师

|

SQL 分布式计算大数据

【赵渝强老师】大数据生态圈中的组件

本文介绍了大数据体系架构中的主要组件，包括Hadoop、Spark和Flink生态圈中的数据存储、计算和分析组件。数据存储组件包括HDFS、HBase、Hive和Kafka；计算组件包括MapReduce、Spark Core、Flink DataSet、Spark Streaming和Flink DataStream；分析组件包括Hive、Spark SQL和Flink SQL。文中还提供了相关组件的详细介绍和视频讲解。

赵渝强老师

842 0 0

爱吃糖的范同学

|

存储分布式计算监控

【Flume】Flume 监听日志文件案例分析

【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析

爱吃糖的范同学

718 9 10

爱吃糖的范同学

|

存储运维监控

【Flume】flume 日志管理中的应用

【4月更文挑战第4天】【Flume】flume 日志管理中的应用

爱吃糖的范同学

260 8 9

热门文章

最新文章

深入阿里云大数据IDE–MaxCompute Studio

开源大数据周刊-第90期

MaxCompute优化系列-如何使用`MAPJOIN` ？

大数据之线程学习

监管、大数据催生医疗IT市场蓝海 2021年将突破2802.5亿美元

贵州省质监局：首个大数据地方标准发布

阿里云 ODPS-Hologres刷新世界纪录，领先第二名23%

产业淘金：大数据十三五规划望年底发布

大数据应用价值与挑战并存

隐私保护：在大数据时代守护个人信息安全

【赵渝强老师】大数据日志采集引擎Flume

踏上大数据第一步：flume

Flume+Hadoop：打造你的大数据处理流水线

Hadoop-20 Flume 采集数据双写至本地+HDFS中监控目录变化 3个Agent MemoryChannel Source对比

Hadoop-19 Flume Agent批量采集数据到HDFS集群监听Hive的日志操作则把记录写入到HDFS 方便后续分析

Hadoop-18 Flume HelloWorld 第一个Flume尝试！编写conf实现Source+Channel+Sink 控制台查看收集到的数据流式收集

Hadoop-17 Flume 介绍与环境配置实机云服务器测试分布式日志信息收集海量数据实时采集引擎 Source Channel Sink 串行复制负载均衡

Apache Flink 实践问题之Flume与Hadoop之间的物理墙问题如何解决

Flume核心组件大揭秘：Agent、Source、Channel、Sink，一文掌握数据采集精髓！

【Flume的大数据之旅】探索Flume如何成为大数据分析的得力助手，从日志收集到实时处理一网打尽！

相关课程

更多

Flume基础应用实战 - 企业全场景解决方案

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第三阶段）

数据采集系统 Flume 快速入门

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

【DataEase】零代码数据可视化分析工具的安装部署保姆级教程