【分布式计算】分布式日志导入工具-Flume-阿里云开发者社区

【分布式计算】分布式日志导入工具-Flume

2015-08-04 1164

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 背景Flume是Apache赞助的一个分布式日志管理系统，主要功能就是把集群中每个worker产生的日志log，collect到特定的地点。为什么要写这篇文章呢，因为现在搜索出来的文献大多是老版本的flume，在flume1.X版本后，也就是flume-ng版本跟之前出现了很大的改动，市面上的很多文档都已经过时了，大家看的时候一定要注意这点，稍后我会提供几个比较新的，

背景

Flume是Apache赞助的一个分布式日志管理系统，主要功能就是把集群中每个worker产生的日志log，collect到特定的地点。

为什么要写这篇文章呢，因为现在搜索出来的文献大多是老版本的flume，在flume1.X版本后，也就是flume-ng版本跟之前出现了很大的改动，市面上的很多文档都已经过时了，大家看的时候一定要注意这点，稍后我会提供几个比较新的，有参考价值的文章。

flume的优势有一下几个方面：
* JAVA实现，跨平台性能好
* 有一定的容错机制，和防止数据保障的机制
* 提供了很多的agent
* 方便开发，有developer选项

功能

这里写图片描述
单机版是如上形式的，有三个部件组成，分别是source，channel，sink。在使用的时候，只要安装flume，然后配置好对应的conf文件，就可以了。
source：主要是配置日志文件的来源（提供多种agent，支持多种数据源）
channel：类似于一个队列，暂存收到的日志数据
sink：将日志文件输出（有很多方式，可以投影到屏幕上，也可以读到数据库或者指定的文件中）

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = avro          #avro是flume的一种type，读取本地log文件
a1.sources.r1.bind = localhost    #这个和下面的port对应于avro-client的端口
a1.sources.r1.port = 44444


# Describe the sink 
a1.sinks.k1.type = com.waqu.sink.OdpsSink #对应代码里的包名
a1.sinks.k1.sink.batchSize = 20             #需要大于10
a1.sinks.k1.sink.table = *******            #自己建的hub表以及key-id信息
a1.sinks.k1.sink.project =******* 
a1.sinks.k1.sink.odps.access_id =********** 
a1.sinks.k1.sink.odps.access_key =********** 
a1.sinks.k1.sink.odps.end_point =***********
a1.sinks.k1.sink.sink.tunnel.end_point =*******

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.checkpointDir=1000
a1.channels.c1.dataDirs = 100


# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

下面就针对这三点，详细介绍下

Flume workflow

agent支持多种输入的source，几个比较常用的type。
*HTTP，可以监听http端口，拿log
*netcat，可以监听类似于telnet的端口数据
*Spooling ，监听某个文件目录下新增的文件
*Avro Source，发送指定文件，这个不支持实时监控，也就是说比方说我们监控a.log文件，当a.log改变了，我们无法拿到改变的日志
*Exec Source，这个可以实时监控某个文件

重点说下Exec Source，这个功能非常酷，它允许在agent上执行shell命令，这样我们就能用tail命令来监控某个文件新增的内容。

tail -f log.txt

Develop

*首先是利用官方的sdk包，开发打包jar文件
*把jar放到flume的lib文件目录下
*配置conf文件
*启动agent：flume-ng agent --conf conf --conf-file ./conf/my.conf -name a1 -Dflume.root.logger=INFO,console
*启动数据源：flume-ng avro-client -H localhost -p 44444 -F /home/garvin/log.txt -Dflume.root.logger=INFO,console

推荐几篇有用的东西：
一个代码实现的例子：https://github.com/waqulianjie/odps_sink
开发者document：http://flume.apache.org/FlumeUserGuide.html
一个比较完整的介绍：http://www.aboutyun.com/thread-8917-1-1.html

本文来自博客 “李博Garvin“
转载请标明出处:http://blog.csdn.net/buptgshengod]

【分布式计算】分布式日志导入工具-Flume

背景

功能

Flume workflow

Develop

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【分布式计算】分布式日志导入工具-Flume

背景

功能

Flume workflow

Develop

热门文章

最新文章

相关课程

相关电子书