搭建hadoop集群教程-阿里云开发者社区

一.集群规划

bigdata01	bigdata02	bigdata03
NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
ZK	ZK	ZK
ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

二.集群搭建

1.修改服务器的主机名称、主机名和IP的映射。

1.1 修改主机名称

vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=bigdata01    ### //不能以数字开头，标点只能用减号-

1.2 修改主机名和IP映射

vim /etc/hosts
192.168.20.66   bigdata01
192.168.20.67   bigdata02
192.168.20.68   bigdata03

1.3 重启网络服务，使配置生效

service network restart

1.4 测试主机名是否修改成功

hostname

1.5 查看主机名对应的IP

hostname -i

1.6 主机之间相互访问，判断网络是否相通

在bigdata01上面
ping bigdata02
ping bigdata03
在bigdata02上面
ping bigdata01
ping bigdata03
在bigdata03上面
ping bigdata01
ping bigdata02

2. 配置服务器之间SSH免密登录

2.1 在服务器bigdata01上面执行如下命令

ssh-key gen -t rsa  # 生成公钥和私钥
然后执行如下命令
ssh-copy-id bigdata01
ssh-copy-id bigdata02
ssh-copy-id bigdata03

2.2 在服务器bigdata02上面执行如下命令

ssh-key gen -t rsa  # 生成公钥和私钥
然后执行如下命令
ssh-copy-id bigdata01
ssh-copy-id bigdata02
ssh-copy-id bigdata03

2.3 在服务器bigdata03上面执行如下命令

ssh-key gen -t rsa  # 生成公钥和私钥
然后执行如下命令
ssh-copy-id bigdata01
ssh-copy-id bigdata02
ssh-copy-id bigdata03

2.4 配置完成之后，可以在每台机器上进行试验，是否成功

在bigdata01上面测试
ssh bigdata02  ssh bigdata03是否能够免密登录

2.5 如果不可用,在不可用的机器上，重新执行ssh-copy-id 命令。

3.安装jdk

3.1将jdk解压到 /opt/module目录下面

tar -zxvf  jdk-8u231-linux-x64.tar.gz -C /opt/module

3.2配置jdk的环境变量

vim /etc/profile
在文件最后面加入
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

3.3使配置生效

source /etc/profile

4.关闭服务器防火墙

4.1 关闭防火墙

systemctl stop firewalld.service

4.2 查看防火墙状态是否关闭成功

systemctl status firewalld.service

5.搭建zookeeper集群

5.1 将zookeeper解压到/opt/module目录下面(zookeeper要下载名称中带-bin的包)。

tar -zxvf apache-zookeeper-3.5.6-bin.tar.gz -C /opt/module/

5.2 在zookeeper下面创建zkData目录。

mkdir zkData

5.3 重命名conf目录下面的配置文件zoo_simple.cfg

mv zoo_simple.cfg zoo.cfg

5.4 修改zoo.cfg文件。

具体配置 
dataDir=/opt/module/zookeeper-3.4.10/zkData  
增加如下配置 
#######################cluster########################## 
server.1=bigdata01:2888:3888
server.2=bigdata02:2888:3888
server.3=bigdata03:2888:3888

5.5 在zkData目录下面创建myid文件

touch myid
在myid里面写入1,表示zoo.cfg里面server.1中的1。

5.6 将配置好的zookeeper拷贝到另外两台服务器，修改myid文件中的值为对象的server的值。 5.7 分别启动zookeeper。

[root@bigdata01 zookeeper-3.5.6]# bin/zkServer.sh start
[root@bigdata02 zookeeper-3.5.6]# bin/zkServer.sh start
[root@bigdata03 zookeeper-3.5.6]# bin/zkServer.sh start

5.8 查看启动状态，有一台leader，两天follower，表示启动成功。

[root@bigdata01 zookeeper-3.5.6]# bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: follower
[root@bigdata02 zookeeper-3.5.6]# bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: leader
[root@bigdata03 zookeeper-3.5.6]# bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost.
Mode: follower

5.9 如果启动过程中出现org.apache.zookeeper.server.quorum.QuorumPeerConfig$ConfigException: Address unresolved: bigdata03:3888 异常，是因为bigdata03:3888后面有空格所致。

6.搭建hadoop集群

6.1 安装hadoop。

6.2 修改hadoop的etc/hadoop目录下面的hadoop-env.sh文件。

# 在其中加入jdk路径
JAVA_HOME=/opt/module/jdk1.8.0_144 
# 加入各个组件操作的用户，防止放弃操作出现用户无法操作问题。
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

6.3 修改的etc/hadoop目录下面的core-site.xml文件。

<configuration>
   <!--把两个NameNode的地址组装成一个集群mycluster -->
   <property>
      <name>fs.defaultFS</name>
      <value>hdfs://mycluster</value>
   </property>   
   <!--指定hadoop运行时产生文件的存储目录 -->
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/opt/module/hadoop-3.2.1/data/tmp</value>
   </property>
   <!--配置zookeeper集群的地址,进行namenode发生故障时自动转移 -->
   <property>
      <name>ha.zookeeper.quorum</name>
      <value>bigdata01:2181,bigdata02:2181,bigdata03:2181</value>
   </property>
</configuration>

6.4 修改hadoop中etc/hadoop目录下面的hdfs-site.xml文件。

<configuration>
  <!--完全分布式集群名称 -->
  <property>
    <name>dfs.nameservices</name>
    <value>mycluster</value>
  </property>
  <!--集群中NameNode节点名称 -->
  <property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2</value>
  </property>
  <!--nn1的RPC通信地址 -->
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn1</name>
    <value>bigdata01:9000</value>
  </property>
  <!-- nn2的RPC通信地址 -->
  <property>
    <name>dfs.namenode.rpc-address.mycluster.nn2</name>
    <value>bigdata02:9000</value>
  </property>
  <!--nn1的http通信地址 -->
  <property>
    <name>dfs.namenode.http-address.mycluster.nn1</name>
    <value>bigdata01:50070</value>
  </property>
  <!-- nn2的http通信地址 -->
  <property>
    <name>dfs.namenode.http-address.mycluster.nn2</name>
    <value>bigdata02:50070</value>
  </property>
  <!--指定Namenode元数据在JournalNode上的存放位置 -->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://bigdata01:8485,bigdata02:8485,bigdata03:8485</value>
  </property>
  <!--配置隔离机制，即同一时刻只能有一台服务器对外响应 -->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>shell(/bin/true)</value>
  </property>
  <!--使用隔离机制时需要ssh无秘钥登录-->
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>
  </property>
  <!--声明journalnode服务器存储目录-->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/opt/hadoop-3.1.2/data/jn</value>
  </property>
  <!--关闭检查权限 -->
  <property>
    <name>dfs.permissions.enables</name>
    <value>false</value>
  </property>
  <!--访问代理类client，mycluster，active 配置失败自动切换实现方式-->
  <property>
    <name>dfs.client.failover.proxy.provider.mycluster</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.Configu redFailoverProxyProvider</value>
  </property>
  <!-- 开启故障自动转移 -->
  <property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
  </property>
</configuration>

6.5 修改hadoop中etc/hadoop目录下面的yarn-site.xml文件。

<configuration>
   <property> 
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
   </property>
   <!--启用 resourcemanager ha--> 
   <property>
       <name>yarn.resourcemanager.ha.enabled</name>
       <value>true</value>
   </property>
    <!--声明两台 resourcemanager 的地址--> 
   <property>
       <name>yarn.resourcemanager.cluster-id</name>
       <value>cluster-yarn1</value>
   </property>
   <property>
       <name>yarn.resourcemanager.ha.rm-ids</name>
       <value>rm1,rm2</value>
   </property>
   <property>
       <name>yarn.resourcemanager.hostname.rm1</name>
       <value>bigdata01</value>
   </property>
   <property>
       <name>yarn.resourcemanager.hostname.rm2</name>
      <value>bigdata02</value>
   </property>
    <!--指定 zookeeper 集群的地址--> 
   <property>
       <name>yarn.resourcemanager.zk-address</name>
       <value>bigdata01:2181,bigdata02:2181,bigdata03:2181</value>
   </property>
    <!--启用自动恢复--> 
   <property>
       <name>yarn.resourcemanager.recovery.enabled</name>
       <value>true</value>
   </property>
    <!--指定 resourcemanager 的状态信息存储在 zookeeper 集群-->  
   <property>
       <name>yarn.resourcemanager.store.class</name>
       <value>>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
   </property>
</configuration>

6.6 启动高可用hadoop集群

启动hdfs集群。

在三台服务器上分别启动journalnode。

在hadoop的bin目录下面执行下面语句
./hdfs --daemon start journalnode

在配置了NameNode的任一服务器上面格式化NameNode。

# 在bigdata01服务器的hadoop的bin目录下面执行命令
./hdfs namenode -format

在执行了上面命令的那台服务器上面启动NameNode。

# 在bigdata01服务器的hadoop的bin目录下面执行命令
./hdfs --daemon start namenode

在另外一台配置了NameNode的服务器上面同步NameNode信息。

# 在bigdata02服务器的hadoop的bin目录下面执行命令
./hdfs namenode -bootstrapStandby

格式化zk

# 在bigdata01服务器的hadoop的bin目录下面执行命令
./hdfs zkfc -formatZK

启动hadoop集群

# 在bigdata01服务器的hadoop的sbin目录下面执行命令
./start-dfs.sh

启动其他服务器的DataNode。

# 在bigdata02和bigdata03服务器的bin目录下面执行命令
./hdfs --daemon start datanode

启动yarn集群

在配置了resourcemanager的任一台服务器上面启动resourcemanager。

# 在bigdata01服务器的hadoop的sbin目录下执行命令
./start-yarn.sh

在其余服务器上面启动nodemanager。

# 在bigdata02和bigdata03服务器的hadoop的bin目录下执行
./yarn --daemon start nodemanager

6.7高可用测试。

hdfs高可用测试。

查看NameNode的状态。

# 在bigdata01和bigdata02服务器的hadoop的bin目录下面执行命令
./hdfs haadmin -getServiceState nn1
./hdfs haadmin -getServiceState nn2

手动切换NameNode状态

## 假如nn1的状态为standby，nn2的状态为active
# 在状态为standby的NameNode所在的机器上的hadoop的bin目录下执行命令
./hdfs haadmin -transitionToActive nn1
# 可将NameNode的状态切换为active。
# 在状态为active的NameNode所在的机器上的hadoop的bin目录下执行命令
./hdfs haadmin -transitionToStandby nn2
# 可将NameNode的状态切换为standby。

测试高可用

将NameNode状态为active的服务器的active停掉。

# 在状态为active的NameNode所在的机器上的hadoop的bin目录下执行命令
./hdfs --daemon stop namenode
# 然后查看状态为standby的那个NameNode的状态，如果已经变为active，表示成功。

测试yarn高可用

查询yarn的状态

# 在bigdata01和bigdata02服务器的hadoop的bin目录下面执行命令
./hdfs rmadmin -getServiceState rm1
./hdfs rmadmin -getServiceState rm2

手动切换yarn状态

## 假如rm1的状态为standby，rm2的状态为active
# 在状态为standby的resourcemanager所在的机器上的hadoop的bin目录下执行命令
./yarn rmadmin -transitionToActive rm1
# 可将resourcemanager的状态切换为active。
# 在状态为active的Nresourcemanager所在的机器上的hadoop的bin目录下执行命令
./hdfs rmadmin -transitionToStandby rm2
# 可将resourcemanager的状态切换为standby。

测试高可用

将resourcemanager状态为active的服务器的resourcemanager停掉。

# 在状态为active的resourcemanager所在的机器上的hadoop的bin目录下执行命令
./yarn --daemon stop resourcemanager
# 然后查看状态为standby的那个resourcemanager的状态，如果已经变为active，表示成功。

搭建hadoop集群教程

一.集群规划

二.集群搭建

1.修改服务器的主机名称、主机名和IP的映射。

2. 配置服务器之间SSH免密登录

3.安装jdk

4.关闭服务器防火墙

5.搭建zookeeper集群

6.搭建hadoop集群

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

搭建hadoop集群教程

一.集群规划

二.集群搭建

1.修改服务器的主机名称、主机名和IP的映射。

2. 配置服务器之间SSH免密登录

3.安装jdk

4.关闭服务器防火墙

5.搭建zookeeper集群

6.搭建hadoop集群

热门文章

最新文章

相关课程

相关电子书

相关实验场景