Hadoop简介
Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。
hadoop2.9.0暂时是个不成熟的版本,建议使用先前的稳定版本hadoop2.8.0
hadoop安装部署的三种模式:
(1)Local (Standalone) Mode 本地模式(又称单机模式):hadoop的默认配置模式
1)hadoop使用本地文件系统而非分布式文件系统(HDFS)。
2)不会启动任何hadoop守护进程,map任务和reduce任务作为同一个进程的不同部分来执行。
3)仅用于开发或调试MapReduce应用程序。
4)当首次解压hadoop的源码包时,默认选择了最低的配置。这时,三个xml文件均为空,当配置文件为空时,hadoop会完全运行在本地。
(2)Pseudo-Distributed Mode 伪分布式模式
1)所有的进程都运行在同一台机器上。
2)使用分布式文件系统,每个hadoop守护进程都是一个独立的进程。
3)每个job都是由JobTracker服务管理的独立的进程。
4)集群中只有一个节点,故HDFS的块复制将限制为单个副本。
5)secondary-master和slaves也都将运行于本地主机。
6)程序的执行逻辑和分布式模式下的执行逻辑一样,因此,常用于测试。
7)该模式在本地模式的基础上添加了代码的调试功能,允许你检查内存的使用情况、HDFS输入输出、其它的守护进程的交互。
8)伪分布式模式也需要配置SSH无密码本机连接本机
(3)Fully-Distributed Mode 完全分布式模式
多个节点组成的hadoop集群,NameNode和DataNode节点分开.