基础篇:Hadoop组件与生态系统介绍

简介:

从2014年开始,大数据逐渐发展壮大起来。越来越多的公司开始使用大数据,包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术,无论业务规模是大还是小。

大数据,简单来说就是存在于我们身边的大量数据,如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析,数据量一般在PB级别。

这项技术已经完全改变了人们看待数据与数据库的方式,也改变了人们使用数据的方式。在军事方面,大数据主要用来预防损伤。在NBA,大数据主要用来捕捉并且分析一场比赛中数以百万计的个人动作。健康产业将大数据应用于治疗癌症与心脏病。汽车公司将这项技术实现自动驾驶以及汽车自主交流。

大数据正在改变这个世界。但,究竟在这之后存在着怎样的软件呢?是什么使得大数据技术不断发展与运行呢?

答案揭晓,Hadoop。

很多人认为hadoop就是大数据,但它不是。在hadoop出现之前就已经存在大数据,而且即使没有hadoop大数据也将继续存在。然而,hadoop现在是大数据行业的寡头。hadoop与大数据二者混用是有原因的——很多人都这样用。你可以自己去找找看哪些大数据公司不使用hadoop。

Hadoop究竟是什么?

它是一个“软件库”,使用者可以通过它获得处理大批数据的能力,即“使用简单编程模型在计算机集群上处理大量数据”。换句话说,它使公司有能力对大批数据进行汇总、存储与分析。

另外,理解大数据很重要的一点在于它是一个“软件库”。大量的程序库补充了Hadoop基本框架,给予各个公司所需的特定工具,以获得期望的hadoop结果。

让我们来看一下hadoop生态系统。相关资源及更多信息参见hadoop网站

Hadoop项目包含了各种模块——Hadoop通用库、hadoop分布式文件系统、Hadoop YARN 与Hadoop MapReduce。这些系统的整合,支撑了我们下面提到的其他hadoop项目,赋予了大数据处理实时自动任务调度和集群资源管理能力。

其他项目提供了特定的服务,完善了整个 hadoop生态系统。

Apache Hive:“一个提供数据汇总与即席查询的数据仓库”。该系统是一个强大的查询工具,并能仅实时的得到查询结果。

Apache Spark: Apache Spark是一个通用计算引擎,能对大规模数据进行快速分析。Spark建立在HDFS之上,而不依赖于MapReduce,它使用了自己的数据处理框架。Apache Spark通常的使用场景,包括实时查询、事件流处理、迭代计算、复杂操作与机器学习。

Apache Ambari: Ambari的目的在于帮助管理hadoop。它能够为许多hadoop生态环境中的工具提供支持,包括Hive, HBase, Pig, Sqoop 与Zookeeper。该工具的特征在于有一个控制面板,能够跟踪集群健康状态,帮助诊断性能问题。

Apache Pig: Pig是一个平台工具,它支持一种处理大数据集的查询语言。

Apache HBase: HBase是一个在HDFS之上运行的非关系型数据库管理系统。建立HBase的目的在于处理大数据项目中的稀疏数据集。

其他常见的hadoop项目包括:Avro, Cassandra, Chukwa, Mahout与Zookeeper。

通过构建hadoop,使用者能够获得大量工具和资源,从而深度定制他们的大数据平台,以适应自己的业务所需。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
12月前
|
SQL 分布式计算 Hadoop
Hadoop生态系统:从小白到老司机的入门指南
Hadoop生态系统:从小白到老司机的入门指南
524 13
|
分布式计算 Hadoop 数据挖掘
Hadoop生态系统介绍(一)
Hadoop生态系统介绍(一)
304 4
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
861 2
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
471 7
|
SQL 分布式计算 Hadoop
【赵渝强老师】Hadoop生态圈组件
本文介绍了Hadoop生态圈的主要组件及其关系,包括HDFS、HBase、MapReduce与Yarn、Hive与Pig、Sqoop与Flume、ZooKeeper和HUE。每个组件的功能和作用都进行了简要说明,帮助读者更好地理解Hadoop生态系统。文中还附有图表和视频讲解,以便更直观地展示这些组件的交互方式。
930 5
|
存储 分布式计算 Hadoop
Hadoop 的两个主要组件是什么?
【8月更文挑战第12天】
1586 4
Hadoop 的两个主要组件是什么?
|
存储 分布式计算 资源调度
什么是Hadoop及其组件?
【8月更文挑战第31天】
1339 1
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
分布式计算 Hadoop Linux
Hadoop检查本地文件系统:
【7月更文挑战第24天】
265 6
|
分布式计算 Hadoop

相关实验场景

更多