java大数据组件Flume-阿里云开发者社区

java大数据组件Flume

2022-05-02 366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力

特点：

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。

Flume提供了三种级别的可靠性保障:

1.end to end：收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。

2.Store on failure：这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送

3.Besteffort：数据发送到接收方后，不会进行确认

使用FileChannel，事件持久化在本地文件系统里(性能较差)

名称	说明
Agent（代理）	使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client（委托）	生产数据，运行在一个独立的线程。
Source（来源）	从Client收集数据，传递给Channel。
Sink（接收器）	从Channel收集数据，运行在一个独立线程。
Channel（通道）	连接 sources 和 sinks ，类似一个队列。
Events（事件）	可以是日志记录、 avro 对象等。