一.集群规划
bigdata01 | bigdata02 | bigdata03 |
NameNode | NameNode | |
JournalNode | JournalNode | JournalNode |
DataNode | DataNode | DataNode |
ZK | ZK | ZK |
ResourceManager | ResourceManager | |
NodeManager | NodeManager | NodeManager |
二.集群搭建
1.修改服务器的主机名称、主机名和IP的映射。
1.1 修改主机名称
vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=bigdata01 ### //不能以数字开头,标点只能用减号-
1.2 修改主机名和IP映射
vim /etc/hosts 192.168.20.66 bigdata01 192.168.20.67 bigdata02 192.168.20.68 bigdata03
1.3 重启网络服务,使配置生效
service network restart
1.4 测试主机名是否修改成功
hostname
1.5 查看主机名对应的IP
hostname -i
1.6 主机之间相互访问,判断网络是否相通
在bigdata01上面 ping bigdata02 ping bigdata03 在bigdata02上面 ping bigdata01 ping bigdata03 在bigdata03上面 ping bigdata01 ping bigdata02
2. 配置服务器之间SSH免密登录
2.1 在服务器bigdata01上面执行如下命令
ssh-key gen -t rsa # 生成公钥和私钥 然后执行如下命令 ssh-copy-id bigdata01 ssh-copy-id bigdata02 ssh-copy-id bigdata03
2.2 在服务器bigdata02上面执行如下命令
ssh-key gen -t rsa # 生成公钥和私钥 然后执行如下命令 ssh-copy-id bigdata01 ssh-copy-id bigdata02 ssh-copy-id bigdata03
2.3 在服务器bigdata03上面执行如下命令
ssh-key gen -t rsa # 生成公钥和私钥 然后执行如下命令 ssh-copy-id bigdata01 ssh-copy-id bigdata02 ssh-copy-id bigdata03
2.4 配置完成之后,可以在每台机器上进行试验,是否成功
在bigdata01上面测试 ssh bigdata02 ssh bigdata03是否能够免密登录
2.5 如果不可用,在不可用的机器上,重新执行ssh-copy-id 命令。
3.安装jdk
3.1将jdk解压到 /opt/module目录下面
tar -zxvf jdk-8u231-linux-x64.tar.gz -C /opt/module
3.2配置jdk的环境变量
vim /etc/profile 在文件最后面加入 export JAVA_HOME=/opt/module/jdk1.8.0_144 export PATH=$PATH:$JAVA_HOME/bin
3.3使配置生效
source /etc/profile
4.关闭服务器防火墙
4.1 关闭防火墙
systemctl stop firewalld.service
4.2 查看防火墙状态是否关闭成功
systemctl status firewalld.service
5.搭建zookeeper集群
5.1 将zookeeper解压到/opt/module目录下面(zookeeper要下载名称中带-bin的包)。
tar -zxvf apache-zookeeper-3.5.6-bin.tar.gz -C /opt/module/
5.2 在zookeeper下面创建zkData目录。
mkdir zkData
5.3 重命名conf目录下面的配置文件zoo_simple.cfg
mv zoo_simple.cfg zoo.cfg
5.4 修改zoo.cfg文件。
具体配置 dataDir=/opt/module/zookeeper-3.4.10/zkData 增加如下配置 #######################cluster########################## server.1=bigdata01:2888:3888 server.2=bigdata02:2888:3888 server.3=bigdata03:2888:3888
5.5 在zkData目录下面创建myid文件
touch myid 在myid里面写入1,表示zoo.cfg里面server.1中的1。
5.6 将配置好的zookeeper拷贝到另外两台服务器,修改myid文件中的值为对象的server的值。 5.7 分别启动zookeeper。
[root@bigdata01 zookeeper-3.5.6]# bin/zkServer.sh start [root@bigdata02 zookeeper-3.5.6]# bin/zkServer.sh start [root@bigdata03 zookeeper-3.5.6]# bin/zkServer.sh start
5.8 查看启动状态,有一台leader,两天follower,表示启动成功。
[root@bigdata01 zookeeper-3.5.6]# bin/zkServer.sh status ZooKeeper JMX enabled by default Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg Client port found: 2181. Client address: localhost. Mode: follower [root@bigdata02 zookeeper-3.5.6]# bin/zkServer.sh status ZooKeeper JMX enabled by default Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg Client port found: 2181. Client address: localhost. Mode: leader [root@bigdata03 zookeeper-3.5.6]# bin/zkServer.sh status ZooKeeper JMX enabled by default Using config: /opt/module/zookeeper-3.5.6/bin/../conf/zoo.cfg Client port found: 2181. Client address: localhost. Mode: follower
5.9 如果启动过程中出现org.apache.zookeeper.server.quorum.QuorumPeerConfig$ConfigException: Address unresolved: bigdata03:3888 异常,是因为bigdata03:3888后面有空格所致。
6.搭建hadoop集群
6.1 安装hadoop。
6.2 修改hadoop的etc/hadoop目录下面的hadoop-env.sh文件。
# 在其中加入jdk路径 JAVA_HOME=/opt/module/jdk1.8.0_144 # 加入各个组件操作的用户,防止放弃操作出现用户无法操作问题。 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root export HDFS_JOURNALNODE_USER=root export HDFS_ZKFC_USER=root
6.3 修改的etc/hadoop目录下面的core-site.xml文件。
<configuration> <!--把两个NameNode的地址组装成一个集群mycluster --> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </property> <!--指定hadoop运行时产生文件的存储目录 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/module/hadoop-3.2.1/data/tmp</value> </property> <!--配置zookeeper集群的地址,进行namenode发生故障时自动转移 --> <property> <name>ha.zookeeper.quorum</name> <value>bigdata01:2181,bigdata02:2181,bigdata03:2181</value> </property> </configuration>
6.4 修改hadoop中etc/hadoop目录下面的hdfs-site.xml文件。
<configuration> <!--完全分布式集群名称 --> <property> <name>dfs.nameservices</name> <value>mycluster</value> </property> <!--集群中NameNode节点名称 --> <property> <name>dfs.ha.namenodes.mycluster</name> <value>nn1,nn2</value> </property> <!--nn1的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.mycluster.nn1</name> <value>bigdata01:9000</value> </property> <!-- nn2的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.mycluster.nn2</name> <value>bigdata02:9000</value> </property> <!--nn1的http通信地址 --> <property> <name>dfs.namenode.http-address.mycluster.nn1</name> <value>bigdata01:50070</value> </property> <!-- nn2的http通信地址 --> <property> <name>dfs.namenode.http-address.mycluster.nn2</name> <value>bigdata02:50070</value> </property> <!--指定Namenode元数据在JournalNode上的存放位置 --> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://bigdata01:8485,bigdata02:8485,bigdata03:8485</value> </property> <!--配置隔离机制,即同一时刻只能有一台服务器对外响应 --> <property> <name>dfs.ha.fencing.methods</name> <value>shell(/bin/true)</value> </property> <!--使用隔离机制时需要ssh无秘钥登录--> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_rsa</value> </property> <!--声明journalnode服务器存储目录--> <property> <name>dfs.journalnode.edits.dir</name> <value>/opt/hadoop-3.1.2/data/jn</value> </property> <!--关闭检查权限 --> <property> <name>dfs.permissions.enables</name> <value>false</value> </property> <!--访问代理类client,mycluster,active 配置失败自动切换实现方式--> <property> <name>dfs.client.failover.proxy.provider.mycluster</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.Configu redFailoverProxyProvider</value> </property> <!-- 开启故障自动转移 --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> </configuration>
6.5 修改hadoop中etc/hadoop目录下面的yarn-site.xml文件。
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--启用 resourcemanager ha--> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <!--声明两台 resourcemanager 的地址--> <property> <name>yarn.resourcemanager.cluster-id</name> <value>cluster-yarn1</value> </property> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>bigdata01</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>bigdata02</value> </property> <!--指定 zookeeper 集群的地址--> <property> <name>yarn.resourcemanager.zk-address</name> <value>bigdata01:2181,bigdata02:2181,bigdata03:2181</value> </property> <!--启用自动恢复--> <property> <name>yarn.resourcemanager.recovery.enabled</name> <value>true</value> </property> <!--指定 resourcemanager 的状态信息存储在 zookeeper 集群--> <property> <name>yarn.resourcemanager.store.class</name> <value>>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> </property> </configuration>
6.6 启动高可用hadoop集群
- 启动hdfs集群。
- 在三台服务器上分别启动journalnode。
在hadoop的bin目录下面执行下面语句 ./hdfs --daemon start journalnode
- 在配置了NameNode的任一服务器上面格式化NameNode。
# 在bigdata01服务器的hadoop的bin目录下面执行命令 ./hdfs namenode -format
- 在执行了上面命令的那台服务器上面启动NameNode。
# 在bigdata01服务器的hadoop的bin目录下面执行命令 ./hdfs --daemon start namenode
- 在另外一台配置了NameNode的服务器上面同步NameNode信息。
# 在bigdata02服务器的hadoop的bin目录下面执行命令 ./hdfs namenode -bootstrapStandby
- 格式化zk
# 在bigdata01服务器的hadoop的bin目录下面执行命令 ./hdfs zkfc -formatZK
- 启动hadoop集群
# 在bigdata01服务器的hadoop的sbin目录下面执行命令 ./start-dfs.sh
- 启动其他服务器的DataNode。
# 在bigdata02和bigdata03服务器的bin目录下面执行命令 ./hdfs --daemon start datanode
- 启动yarn集群
- 在配置了resourcemanager的任一台服务器上面启动resourcemanager。
# 在bigdata01服务器的hadoop的sbin目录下执行命令 ./start-yarn.sh
- 在其余服务器上面启动nodemanager。
# 在bigdata02和bigdata03服务器的hadoop的bin目录下执行 ./yarn --daemon start nodemanager
6.7高可用测试。
- hdfs高可用测试。
- 查看NameNode的状态。
# 在bigdata01和bigdata02服务器的hadoop的bin目录下面执行命令 ./hdfs haadmin -getServiceState nn1 ./hdfs haadmin -getServiceState nn2
- 手动切换NameNode状态
## 假如nn1的状态为standby,nn2的状态为active # 在状态为standby的NameNode所在的机器上的hadoop的bin目录下执行命令 ./hdfs haadmin -transitionToActive nn1 # 可将NameNode的状态切换为active。 # 在状态为active的NameNode所在的机器上的hadoop的bin目录下执行命令 ./hdfs haadmin -transitionToStandby nn2 # 可将NameNode的状态切换为standby。
- 测试高可用
将NameNode状态为active的服务器的active停掉。
# 在状态为active的NameNode所在的机器上的hadoop的bin目录下执行命令 ./hdfs --daemon stop namenode # 然后查看状态为standby的那个NameNode的状态,如果已经变为active,表示成功。
- 测试yarn高可用
- 查询yarn的状态
# 在bigdata01和bigdata02服务器的hadoop的bin目录下面执行命令 ./hdfs rmadmin -getServiceState rm1 ./hdfs rmadmin -getServiceState rm2
- 手动切换yarn状态
## 假如rm1的状态为standby,rm2的状态为active # 在状态为standby的resourcemanager所在的机器上的hadoop的bin目录下执行命令 ./yarn rmadmin -transitionToActive rm1 # 可将resourcemanager的状态切换为active。 # 在状态为active的Nresourcemanager所在的机器上的hadoop的bin目录下执行命令 ./hdfs rmadmin -transitionToStandby rm2 # 可将resourcemanager的状态切换为standby。
- 测试高可用
将resourcemanager状态为active的服务器的resourcemanager停掉。
# 在状态为active的resourcemanager所在的机器上的hadoop的bin目录下执行命令 ./yarn --daemon stop resourcemanager # 然后查看状态为standby的那个resourcemanager的状态,如果已经变为active,表示成功。