[Hadoop系列]Hadoop的安装-3.完全分布模式

简介:

  inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。

  Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop 0.20.1。下面就hadoop 0.20.1为蓝本,介绍在Ubuntu Linux 9.10下安装hadoop的方法。(来源:http://blog.csdn.net/inkfish)

支持的平台:(来源:http://blog.csdn.net/inkfish)
  Linux,可作为开发和产品部署的平台;
  Windows,可作为开发平台。

事先需要的软件:(来源:http://blog.csdn.net/inkfish)
  1.JavaTM1.6.x,必须安装,建议选择Sun公司发行的Java版本;
  2.ssh必须安装,并保证sshd运行,hadoop将以ssh进行通讯;
  3.如果是windows,则需要装Cygwin,用以支持shell命令。

安装可用的模式:(来源:http://blog.csdn.net/inkfish)
  1.本地模式;
  2.伪分布模式;
  3.完全分布模式。

完全分布模式安装步骤(这里的步骤只让hadoop能跑,不带任何调优步骤):

  1.下载并解压hadoop到集群中某台服务器目标目录。
  2.配置/etc/hosts文件
    2.1确认集群中所有服务器均有hostname,并记录IP
    2.2每一台服务器的/etc/hosts文件里配置hostname和IP对应关系,加快解析速度。
  3.配置SSH免密码登陆
    3.1每台服务器上运行:
     $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
     $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
   3.2把各台服务器的~/.ssh/authorized_keys文件内容合并到一个总的authorized_keys文件;
   3.3把那个总的authorized_keys文件scp到每台服务器,替换原有的authorized_keys文件;
   3.4互相SSH对方机器,确认SSH登陆不需要密码
  4.配置各台服务器时间,确保每台服务器时间相同;
  5.配置hadoop
   5.1配置conf/hadoop-env.sh文件
     配置JAVA_HOME一行,配置正确的路径。
   5.2配置conf/core-site.xml文件

<configuration> <property> <name>fs.default.name</name> <value>hdfs://host:9000</value> </property> </configuration>
        注:这里的host必须改为对应的namenode的hostname
   5.3配置conf/hdfs-site.xml文件
     如果不修改使用默认设置也可以。
   5.4配置conf/mapred-site.xml文件
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>
       注:这里的host必须改为对应的namenode的hostname

  6.配置conf/slaves和conf/master文件

   slaves文件里写datanode的hostname或IP,master里写namenode、secondary namenode的hostname或IP,每行写一个服务器,以#开头的行视为注释。
  7.分发hadoop
   直接通过scp,把hadoop整个目录复制到各台服务器的相同目录即可
  8.格式化hadoop的namenode
   执行命令:$ bin/hadoop namenode -format
  9.启动hadoop
   执行命令:$ bin/start-all.sh

  至此,完全分布式安装完毕,通常启动到所有服务器完全识别出来需要一定的时间(我这里是5分钟左右),要耐心等待,在namenode节点上,打开浏览器,输入http://localhost:50070/即可看到整个hadoop情况,JobTracker情况可以看每一个服务器的http://localhost:50030/。

目录
相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
65 0
|
4月前
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
72 0
|
10天前
|
存储 分布式计算 Hadoop
Hadoop的运行模式
【4月更文挑战第12天】Hadoop支持三种运行模式:本地模式适用于初学者和小型项目;伪分布式集群模式用于测试,数据存储在HDFS;完全分布式集群模式,适用于企业级大规模数据处理,具有高吞吐量和容错性。选择模式取决于实际需求和环境配置。Hadoop的分布式计算特性使其在扩展性、容错性和可恢复性方面表现出色,是大数据处理的关键工具。
12 1
|
16天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
17天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
17 0
|
4月前
|
消息中间件 存储 分布式计算
Hadoop学习笔记(HDP)-Part.19 安装Kafka
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
74 0
Hadoop学习笔记(HDP)-Part.19 安装Kafka
|
3月前
|
分布式计算 资源调度 Hadoop
在Linux系统上安装Hadoop的详细步骤
【1月更文挑战第4天】在Linux系统上安装Hadoop的详细步骤
424 0
|
4月前
|
存储 分布式计算 Hadoop
hadoop 安装系列教程二——伪分布式
hadoop 安装系列教程二——伪分布式
46 0
|
4月前
|
分布式计算 Hadoop Java
hadoop系列——linux hadoop安装
hadoop系列——linux hadoop安装
77 0
|
4月前
|
分布式计算 Hadoop Java
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
Hadoop【部署 01】腾讯云Linux环境CentOS Linux release 7.5.1804单机版hadoop-3.1.3详细安装步骤(安装+配置+初始化+启动脚本+验证)
87 0

相关实验场景

更多