《Flume日志收集与MapReduce模式》一第1章概览与架构-阿里云开发者社区

《Flume日志收集与MapReduce模式》一第1章概览与架构

2017-05-02 1423

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章，第1.1节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章

概览与架构
如果在阅读本书，那就说明你正在数据的海洋中遨游。创建大量的数据是非常简单的事情，这要归功于Facebook、Twitter、Amazon、数码相机与相机照片、YouTube、Google，以及你能想得到的能够连接到互联网上的任何东西。作为网站的提供者，10年前的应用日志只是用来帮助你解决网站的问题。时至今日，如果你知道如何从大量的数据中浪里淘金，那么相同的数据就会提供关于业务与客户的有价值的信息。
此外，既然在阅读本书，那么你肯定知道创建Hadoop的目的在一定程度上就是为了解决大量数据的筛选问题。当然了，只有可靠地加载Hadoop集群数据并供数据科学家从中选择，这一切才能达成所愿。
将数据存储到Hadoop以及从Hadoop中获取数据（即Hadoop文件系统，HDFS）并不是什么难事——只需要如下一条命令即可：

将数据打包好并准备上传时，使用上面这条命令就可以轻松将数据存储到Hadoop文件系统中。
不过，网站一直在创建着数据，批量将数据加载到HDFS中的频率是多少呢？每天？每小时？无论选择何种处理周期，最终还是会有人问“能否尽快给我数据呢”？你真正需要的是能够处理流式日志/数据的解决方案。
并不是只有你才有这种需求。Cloudera（专业的Hadoop服务提供商，拥有自己的Hadoop分发版本）在与客户的协作过程中不断发现了这种需求。创建Flume的目的就在于满足这种需求，它创建了一个标准、简单、健壮、灵活且可扩展的工具，用于将数据存储到Hadoop中。

《Flume日志收集与MapReduce模式》一第1章概览与架构

第1章

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《Flume日志收集与MapReduce模式》一第1章 概览与架构

第1章

华章出版社

热门文章

最新文章

相关课程

相关电子书

《Flume日志收集与MapReduce模式》一第1章概览与架构