《Flume日志收集与MapReduce模式》一第1章 概览与架构

简介:

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章

概览与架构
如果在阅读本书,那就说明你正在数据的海洋中遨游。创建大量的数据是非常简单的事情,这要归功于Facebook、Twitter、Amazon、数码相机与相机照片、YouTube、Google,以及你能想得到的能够连接到互联网上的任何东西。作为网站的提供者,10年前的应用日志只是用来帮助你解决网站的问题。时至今日,如果你知道如何从大量的数据中浪里淘金,那么相同的数据就会提供关于业务与客户的有价值的信息。
此外,既然在阅读本书,那么你肯定知道创建Hadoop的目的在一定程度上就是为了解决大量数据的筛选问题。当然了,只有可靠地加载Hadoop集群数据并供数据科学家从中选择,这一切才能达成所愿。
将数据存储到Hadoop以及从Hadoop中获取数据(即Hadoop文件系统,HDFS)并不是什么难事——只需要如下一条命令即可:

将数据打包好并准备上传时,使用上面这条命令就可以轻松将数据存储到Hadoop文件系统中。
不过,网站一直在创建着数据,批量将数据加载到HDFS中的频率是多少呢?每天?每小时?无论选择何种处理周期,最终还是会有人问“能否尽快给我数据呢”?你真正需要的是能够处理流式日志/数据的解决方案。
并不是只有你才有这种需求。Cloudera(专业的Hadoop服务提供商,拥有自己的Hadoop分发版本)在与客户的协作过程中不断发现了这种需求。创建Flume的目的就在于满足这种需求,它创建了一个标准、简单、健壮、灵活且可扩展的工具,用于将数据存储到Hadoop中。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
存储 监控 数据库
Django 后端架构开发:高效日志规范与实践
Django 后端架构开发:高效日志规范与实践
510 1
|
XML JSON 监控
浅谈logback日志架构
浅谈logback日志架构
389 0
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
533 2
|
存储 NoSQL Redis
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 +  无锁架构 +  EDA架构  + 异步日志 + 集群架构
|
Web App开发 监控 应用服务中间件
全新架构:日志服务 SLS 自研免登录方案发布
全新架构!日志服务 SLS 自研免登录方案发布
88048 118
|
存储 SQL 缓存
Mysql数据库(3)—架构和日志
Mysql数据库(3)—架构和日志
261 0
Mysql数据库(3)—架构和日志
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
718 9
|
SQL 数据采集 运维
日志服务产品架构
日志服务产品架构
225 6
|
存储 算法 Java
高并发架构设计三大利器:缓存、限流和降级问题之滑动日志算法问题如何解决
高并发架构设计三大利器:缓存、限流和降级问题之滑动日志算法问题如何解决
254 0

热门文章

最新文章