开发者社区> 萌萌怪兽> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

数据库必知词汇:Hadoop

简介: Apache Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身的设计目的是在应用层检测和处理故障,而不是依赖硬件来提供高可用性,因此在计算机集群之上提供高可用性服务,而每个集群都可能容易出现故障。
+关注继续查看

Apache Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身的设计目的是在应用层检测和处理故障,而不是依赖硬件来提供高可用性,因此在计算机集群之上提供高可用性服务,而每个集群都可能容易出现故障。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。

用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

Hadoop实现的分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

资料来源:
1.Apache Hadoop http://hadoop.apache.org/
2.秦婷,张长华主编;王伯爵,沈海龙,纪善国副主编,云计算技术项目教程,知识产权出版社,2016.12
3.杨旭,汤海京,丁刚毅编著,数据科学导论 第2版,北京理工大学出版社,2017.01
4.一分钟让你知道Hadoop是什么 https://blog.csdn.net/dashujvyu/article/details/89843860
5.Joe Austin.Dataguise Enhances DG for Hadoop with Selective Encryption to Enable Secure, High-Performance Analytics for Hadoop Users:网络出版,2013年
6.陈吉荣, 乐嘉锦. 基于Hadoop生态系统的大数据解决方案综述[J]. 计算机工程与科学, 2013, 35(10):25-35.
大话Hadoop MapReduce https://searchdatabase.techtarget.com.cn/microsite/7-22750/

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
大数据Hadoop环境搭建
大数据Hadoop环境搭建
73 0
数据库必知词汇:HTAP
混合事务/分析处理(Hybrid Transaction Analytical Processing, HTAP)是数据库技术领域的新名词,是在线事务(OnLine Transaction Processing)和在线分析(Online Analytical Processing)合称简写,即(HTAP = OLAP +OLTP), HTAP既可以在线交易事务,又可以在线实时分析。
1006 0
数据库必知词汇:OLTP
联机事务处理过程(On-Line Transaction Processing, OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
627 0
基于hadoop的免费大数据平台有哪些?
现在市面上围绕大数据的应用开发如火如荼,比如,企业级大数据处理平台开发、政务大数据平台的开发、智慧交通大数据平台开发等。这些大数据处理平台的开发从技术角度上来说都是偏向于底层的,开发难度之大真不是三两个人就可以搞得定的。
1294 0
Hadoop大数据面试题(全)
以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许的修改了回答了部分空白的问题,其中里面有些考题出的的确不是很好,但是也不乏有很好的题目,这些都是基于真实的面试来的,希望对即将去面试或向...
4065 0
大数据||hadoop集群的时间同步
各大银行、证券、通讯集群内部时间同步,找一台机器作为时间基准,其他机器同步一次时间。 时间服务器配置 检测是否安装ntp工具 rpm -qa|grep ntp 修改vi /etc/ntp.conf 开启#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap并把192.168.1.0修改为192.168.57.0 去掉注解(本地网络上的主机限制较少。
1555 0
hadoop支持的数据类型
<p><span style="font-family:Courier New; font-size:14px">mapreduce的过程是:</span></p> <p><span style="font-family:Courier New; font-size:14px">map:(k1,v1)------list(k2,v2)</span></p> <p><span style
861 0
+关注
萌萌怪兽
云栖社区老同学,软件工程学生党。研究兴趣:软件工程、软件架构设计、软件过程、DevOps以及微服务等。
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
HBase在时间序列数据库中的应用
立即下载
HareQL:快速HBase查询工具的发展过程
立即下载
对比MySQL,看HBase的能力及场景
立即下载