《Flume日志收集与MapReduce模式》一2.3　从“Hello World”开始-阿里云开发者社区

《Flume日志收集与MapReduce模式》一2.3　从“Hello World”开始

2017-05-02 1131

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介：

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第2章，第2.3节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.3　从“Hello World”开始

每一本技术图书都会有一个“Hello World”示例。下面是我们将会使用的配置文件：

968a0c93886b012ea39e8b02c9db4c3b2bd00bfc

这里定义了一个名为agent的代理，它有一个名为s1的源、一个名为c1的通道，以及一个名为k1的接收器。
源s1的类型为netcat，它只是打开一个Socket监听事件（每个事件一行文本）。它需要两个参数，分别是一个绑定IP与一个端口号。该示例使用0.0.0.0作为绑定地址（表示监听任何地址的Java约定）以及端口号12345。源配置还有一个名为channels的参数，它是源将事件附加到的通道名。在该示例中使用的是c1。这里使用了复数，因为你可以配置将一个源写到多个通道中，不过在这个简单的示例中我们并没有这么做。
名为c1的通道是个内存通道，使用了默认配置。
名为k1的接收器的类型是logger。该接收器主要用于调试与测试。它会使用log4j将所有INFO级别的日志记录下来，这些日志来自于配置好的通道，在该示例中就是c1。这里所用的通道是单数的，因为一个接收器只能从一个通道接收数据。
使用该配置，我们运行代理并使用Linux netcat工具连接到代理来发送事件。
首先，解压缩之前下载的二进制分发包：

16f4b8aaa87f7c128db99b24903949eb7303d7e0

接下来，简单看看help命令。使用help命令运行flume-ng命令：

注意，如果指定了目录，那么就需要先将其加入到classpath中。
如你所见，可以通过两种方式调用命令（除了烦琐的help与version命令外）。我们将使用agent命令，avro-client的使用将在后面进行介绍。
agent命令有两个必填参数，分别是使用的配置文件与代理名（如果配置包含了多个代理）。下面来看看我们的示例配置，打开一个编辑器（我使用的是vi，你可以使用自己喜欢的任何编辑器）：

接下来，将vi配置的内容放到编辑器中，保存并退回到shell。
现在可以启动代理了：

-Dflume.root.logger属性覆盖了conf/log4j.properties中的root logger，使用console追加器。如果没有覆盖root logger，那么一切也都正常，只不过输出将会被写到log/flume.log文件中。当然了，你还可以编辑conf/log4j.properties文件，修改flume.root.logger属性（或是其他想要修改的任何属性）。
你可能会问，既然-f参数包含了配置的完整相对路径，那为何还要指定-c参数呢。原因在于log4j配置文件需要放到classpath中。如果命令没有指定-c参数，那就会报如下错误：

不过你并没有这么做，因此会看到如下关键的日志输出：

这行日志告诉你名为agent的代理已经启动了。通常情况下，如果在配置文件中有多个配置，你只需要这一行日志就可以断定启动了正确的配置。

下面是另一个检查，确保加载了正确的文件，在该示例中就是hw.conf文件：

当所有的配置都被解析完毕后，你会看到下面这条消息，它展示了配置好的一切内容。你会看到s1、c1、k1，以及哪些Java类完成了实际的工作。你可能会猜想，netcat其实是org.apache.flume.source.NetcatSource的便捷方式。如果需要，我们也可以使用类名。事实上，如果编写了自定义的源，那么我会使用其类名来作为源的type参数。如果不对Flume分发包打补丁，就无法定义自己的短名字：

我们看到源现在正在监听端口12345的输入，接下来向其发送一些数据。
最后，再打开一个终端。我们使用nc命令（也可以使用telnet或是其他类似的命令）发送字符串“Hello World”并敲入来标识事件的结束：

“OK”来自于代理，在敲入回车后，它表示将文本行作为一个Flume事件来接受。如果查看代理日志，你会看到如下内容：

上述日志消息表明该Flume事件不包含头（netcat源自己也没有添加任何头）。体以十六进制的形式呈现，并且还有一个字符串表示（便于阅读，该示例中就是Hello World消息）。
如果像下面这样再发送一行：

你会在代理的日志中看到如下内容：

事件似乎被截断了。根据设计，logger sink将体内容限制为16字节，从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容，那么你应该使用其他的sink，也许可以使用file_roll sink，它会将日志写到本地文件系统中。

《Flume日志收集与MapReduce模式》一2.3　从“Hello World”开始

2.3　从“Hello World”开始

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《Flume日志收集与MapReduce模式》一2.3 从“Hello World”开始

2.3 从“Hello World”开始

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Flume日志收集与MapReduce模式》一2.3　从“Hello World”开始

2.3　从“Hello World”开始