《Hadoop实战第2版》——1.8节本章小结-阿里云开发者社区

开发者社区> 华章出版社> 正文
登录阅读全文

《Hadoop实战第2版》——1.8节本章小结

简介: 本节书摘来自华章社区《Hadoop实战第2版》一书中的第1章,第1.8节本章小结,作者:陆嘉恒,更多章节内容可以访问云栖社区“华章社区”公众号查看

1.8 本章小结
本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。由于Hadoop拥有可计量、成本低、高效、可信等突出特点,基于Hadoop的应用已经遍地开花,尤其是在互联网领域。
本章接下来介绍了Hadoop项目及其结构,现在Hadoop已经发展成为一个包含多个子项目的集合,被用于分布式计算,虽然Hadoop的核心是Hadoop分布式文件系统和MapReduce,但Hadoop下的Common、Avro、Chukwa、Hive、HBase等子项目提供了互补性服务或在核心层之上提供了更高层的服务。紧接着,简要介绍了以HDFS和MapReduce为核心的Hadoop体系结构。
本章之后又从分布式系统的角度介绍了Hadoop是如何做到并行计算和数据管理的。分布式计算平台Hadoop实现了分布式文件系统和分布式数据库。Hadoop中的分布式文件系统HDFS能够实现数据在电脑集群组成的云上高效的存储和管理功能,Hadoop中的并行编程框架MapReduce基于HDFS来保证用户可以编写应用于Hadoop的并行应用程序。本章又介绍了Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。它们都有自己完整的数据定义和体系结构,以及实现数据从宏观到微观的立体管理数据办法,这都为Hadoop平台的数据存储和任务处理打下了基础。
本章最后还介绍了关于Hadoop的一些基本的安全策略,包括用户权限管理、HDFS安全策略和MapReduce安全策略,为用户的实际使用提供了参考。本章中的许多内容在本书后面的章节中会详细介绍。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: