【读书笔记】大数据原理与应用:大数据处理架构Hadoop

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【读书笔记】大数据原理与应用:大数据处理架构Hadoop

简 介:这本书的名字为大数据技术原理与应用,该书的作者为厦门大学著名的研究大数据方向的林子雨老师。顾名思义,概述讲述了大数据的相关知识,包含一些分布式系统以及各种流计算等大数据技术。本书讲述的非常棒,通俗易懂。下面是我在读这本书的时候的记录并加上自己的理解。本文意在记录自己近期学习过程中的所学所得,如有错误,欢迎大家指正。

 

关键词:Hadoop、MapReduce、大数据生态

一、Hadoop简介

Hadoop是Apache旗下的一个开源分布式计算平台,为广大用户提供了分布式基础架构。Hadoop的两大核心就是HDFS和MapReduce。HDFS就是分布式文件系统,它是将谷歌的GFS进行了开源实现,它支持大规模数据的分布式存储。而MapReduce是用来进行整个HDFS上的数据,使集群中的每个机器进行并行操作,保证处理数据的高效性。

二、Hadoop的特点

Hadoop本身是一种分布式计算框架,具有可靠、高效等特性。

  1. 高效性:Hadoop是分布式计算平台,它有效地利用了分布式存储和分布式并行处理两大核心技术,大大提高了数据处理的效率
  2. 可扩展性:因为Hadoop是建立在大的集群之上,所以它可以扩展很多个节点
  3. 可靠性:因为是集群形式,尽管存在一台机器宕机,但是集群中的其它机器仍然可以进行服务
  4. 高容错性:Hadoop的HDFS采用的是副本机制,同样的数据存储在多个机器中,有多个副本,一旦某台机器的数据丢失,其它的机器仍然可以提供丢失的数据
  5. 成本低:集群方式使得我们可以使用很多廉价的机器进行运转任务

三、Hadoop的生态系统

现在已经有很多成熟的框架支持并建立在Hadoop的系统之上,比如Hive、HBase、Spark等大数据组件。

上图可以观察到HDFS是很多大数据框架依赖的基础,因为我们的数据全部都是要存储到分布式文件系统中,然后利用现有的大数据组件进行分析处理、存储等操作。

1.HDFS:

HDFS的全名为Hadoop Distributed File System,它显著的有点就是可以运行在很多廉价的服务器上,而且由于集群的原因,它保证了用户数据的可靠性。而且它的吞吐率很高,这也就是为什么它适合大数据的原因。

2.HBase:

HBase是大数据生态系统中的一个数据库,但是它不同于mysql这些,它是NoSQL,底层是以列进行存储,可以很好的存储非结构化数据,采用rowKey进行区分每条数据。HBase其实就是谷歌曾经的一篇论文BigTable的开源实现。

3.MapReduce

MapReduce简单来说它不是一种技术,它是一种编程思想,就是可以理解为将我们很多的数据进行切分,一系列的任务进行切分,统一的抽象成两个阶段,分别为Map阶段和Reduce阶段,Map阶段就是将我们的数据进行切分,然后Reduce阶段,将我们的中间结果进行聚合处理。最直白来说,MapReduce的核心思想就是分而治之,它会将一个大的任务分成多个小任务放到集群中多个服务器上去运行,最终整合所有服务器的结果。

4.Hive

Hive是一个基于Hadoop的数据仓库,可以理解为就是存储数据的仓库,这么说好像和数据库差不都,都属用来存数据的,虽说都可以存储数据,但是数据仓库往往是用来存历史数据或者是大型数据,以便于日后进行分析计算等。Hive提供了类SQL的语言进行编程(HQL),大大降低了学习难度,而且书写HQL可以将它转化为MR任务进行执行。

5.Zookeeper

Zookeeper是一种高可靠的协同工作系统,方便我们进行集群管理,以及分布式应用的配置管理等。

6.Flume

Flume是一个可以采集海量日志的工具,它可以实时的检测数据的产生将其采集到我们的数仓,然后进行分析,它的优点是我们可以自定向进行数据的转移。

,它可以实时的检测数据的产生将其采集到我们的数仓,然后进行分析,它的优点是我们可以自定向进行数据的转移。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
4月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
1月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
|
2月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
3月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
63 1
|
4月前
|
架构师 Oracle 大数据
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一
|
7月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
292 79
|
12月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
440 6
|
12月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
232 2
|
10月前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
417 4

热门文章

最新文章

  • 1
    人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
    185
  • 2
    DataWorks操作报错合集之出现报错“odps-0123055:用户脚本异常-Traceback(最后一次调用)”,如何解决
    431
  • 3
    人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
    139
  • 4
    MaxCompute操作报错合集之创建oss外部表时出现了报错:"Semantic analysis exception - external table checking failure, error message:,该怎么办
    413
  • 5
    MaxCompute操作报错合集之在本地用tunnel命令上传excel表格到mc遇到报错: tunnel upload C:\Users***\Desktop\a.xlsx mc里的非分区表名 -s false;该怎么办
    169
  • 6
    DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
    379
  • 7
    MaxCompute操作报错合集之通过UDF调用异常(其他使用http调用正常)。报错:java.lang.NoSuchMethodError:是什么导致的
    178
  • 8
    MaxCompute操作报错合集之查询外部表insert到内部表报错,两表字段一致,是什么原因
    165
  • 9
    MaxCompute操作报错合集之出现报错:invalid dynamic partition value: \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd是什么原因
    369
  • 10
    MaxCompute产品使用合集之如何设置每次返回超过10000行记录
    192