2. 发展历史
- 创始人Doug Cutting
- Lucene称为apache基金会的子项目
- Lucene面临跟google一样的问题,海里数据存储问题,检索问题
- DougCutting学习模仿google,创造微型版Nutch
- hadoop的产生依赖于google在大数据方面的三篇论文
- GFS 产生了 HDFS
- Map-Reduce 产生了MR
- BigTable 产生了Hbase
- 03-04年,google公开了部分GFS和MapReduce的细节,DougCutting用了两年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升
- 05年,hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会
- 06年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入hadoop中,Hadoop诞生
- 名字来源于Doug Cutting儿子的玩具大象
3.三大发行版本
Apache 最基本的版本
Cloudera 内部集成了很多大数据框架 对应产品CDH
Hortonworks 文档较好 对应产品HDP 已被Cloudera收购,推出产品CDP
4.优势
- 高可靠性 底层多个数据副本
- 高扩展性 动态增加节点
- 高效性 并行工作
- 高容错性
5. 组成
- 1.x
- Common 辅助工具
- HDFS 数据存储
- MapReduce 计算+资源调度
- 2.x
- Common 辅助工具
- HDFS 数据存储
- Yarn 资源调度
- MapReduce 计算
- 3.x
- 无变化
6. 各组成概述
6.1 HDFS概述
Hadoop Distributed File System
- NameNode 数据的存储情况
- DataNode 存储数据
- 2NN 对NN进行备份
6.2 YARN概述
Yet Another Resource Negotiator 另一种资源协调者
- ResourceManager 整个集群资源的管理者
- NodeManager 单节点资源的管理者
- ApplicationMaster 单个任务运行的管理者
- Container 容器
6.3 MapReduce概述
分为Map Reduce两部分
7. 生态体系