【亲测】Hadoop 高可用集群搭建与开发环境部署

2022-11-11 430

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 【亲测】Hadoop 高可用集群搭建与开发环境部署

每一次 Hadoop 生态的更新都是如此令人激动

像是 hadoop3x 精简了内核，spark3 在调用 R 语言的 UDF 方面，速度提升了 40 倍

所以该文章肯定得配备上最新的生态

hadoop 生态简介

期待目标

环境

OS ：

CentOS 7.4

组件：

Hadoop 3x 及生态
Yarn
Mapreduce
HDFS
Zookeeper 3.6.3

可选项

Hive
Flume 1.9
Sqoop 2
kafka 2x
Spark 3x

RDMS：

MySQL 5.7 or 8

开发语言：

JDK 8
Python 3.6 64bit
Scala 2.0 及以上

集群规划

建议：Zookeeper、JournalNode 节点为奇数

防止由脑裂造成的集群不可用
leader 选举，要求可用节点数量 > 总节点数量/2 ,节省资源

注意

Hadoop 安装有如下三种方式：

单机模式：安装简单，几乎不用做任何配置，但仅限于调试用途。
伪分布模式：在单节点上同时启动 NameNode、DataNode、JobTracker、TaskTracker、Secondary Namenode 等 5 个进程，模拟分布式运行的各个节点。
完全分布式模式：正常的 Hadoop 集群，由多个各司其职的节点构成。
HA ：在 Hadoop 2.0 之前,在 HDFS 集群中 NameNode 存在单点故障 (SPOF：A Single Point of Failure)。对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动

此文采用 HA方案进行部署

可选方案：

多台物理机
虚拟机多开

Centos 安装

环境

此文采用多台物理机方案

内存 2G
硬盘 20G

共 4 台物理设备

镜像下载：

此文采用版本：Centos7.4 x64

中科大源

官方源

建议：百度网盘 centos7.4 密码: 8jwf

安装：

镜像刻录不进行介绍

请参考：

linux
windows
mac

选择语言：

采用最小安装方案

> >

设置 root 密码

点击 ROOT PASSWORD 设置 root 密码，不用添加用户

> >

等待完成

完成之后点击Reboot > >

虚拟机帮助

该节点为虚拟机的朋友提供帮助

网络配置

虚拟机配置修改

1）共享网络

2）选择桥接模式

centos 网络配置文件修改

1）查找配置文件

find / -name ifcfg-*

2）修改你 etc 目录下，并以你网卡名结尾的文件

# 这里举例我的
vi /etc/sysconfig/network-scripts/ifcfg-ens33

动态 IP 修改操作：

启用 dhcp
注释 ipaddr 和 gateway
onboot 设置为 yes

建议做如下修改

修改为静态 IP

# 修改
BOOTPROTO="static" #dhcp改为static
ONBOOT="yes" #开机启用本配置
# 添加
IPADDR=192.168.x.x #静态IP
GATEWAY=192.168.x.x  #默认网关
NETMASK=255.255.255.0 #子网掩码
DNS1=你本机的dns配置 #DNS 配置

3）重启服务

service network restart

4）ping 一下我的博客试试

ping uiuing.com

客户端连接

安装 net-tools

yum -y install net-tools

查看 ip

ifconfig

打开客户端终端进行 ssh 连接

ssh root@yourip

安装开发环境

Mysql

此文采用版本：mysql5.7

安装依赖

登陆 centos

安装主要依赖

yum -y install gcc gcc-c++ ncurses ncurses-devel cmake

安装 boost 库（可选）

Mysql5.7 版本更新后有很多变化，安装必须要 BOOST 库（版本需为 1.59.0）

boost 库下载地址：boost

1）下载

wget https://jaist.dl.sourceforge.net/project/boost/boost/1.59.0/boost_1_59_0.tar.gz

2）检查 MD5 值，若不匹配则需要重新下载

md5sum boost_1_59_0.tar.gz

3）解压

tar -vxzf boost_1_59_0.tar.gz

4）存储

mv boost_1_59_0 /usr/local/boost_1_59_0

下载

安装 wget

yum -y install wget

官方下载地址：mysql

1）下载

wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.21.tar.gz

2）检查 MD5 值，若不匹配则需要重新下载

md5sum mysql-5.7.21.tar.gz

编译安装

1）解压

tar -vxzf mysql-5.7.21.tar.gz

2）编译

cmake .\

make

3）安装

make install

配置 mysql

启动

systemctl start mysqld

或者

systemctl start | stop

查看 mysql 状态

systemctl status mysqld

或者

systemctl status

开机自启（可选）

systemctl enable mysqld

重载配置（可选）

systemctl daemon-reload

配置 root 密码

1）生成默认密码

grep 'temporary password' /var/log/mysqld.log

localhost 后面的就是你的 root 密码

2）修改密码

登陆 mysql

mysql -uroot -p你的密码

修改密码

ALTER USER 'root'@'localhost' IDENTIFIED BY '你的密码';

注意：mysql 5.7 默认安装了密码安全检查插件（validate_password），默认密码检查策略要求密码必须包含：大小写字母、数字和特殊符号，并且长度不能少于8位

以后可以用 update 更新密码

use mysql;
update user set password=PASSWORD('你的密码') where user='root';
flush privileges;

添加远程用户（可选）

GRANT ALL PRIVILEGES ON *.* TO '用户名'@'%' IDENTIFIED BY '密码' WITH GRANT OPTION;

use mysql;
UPDATE user SET Host='%' WHERE User='用户名';
flush privileges;

配置文件：/etc/my.cnf

日志文件：/var/log/mysqld.log

服务启动脚本：/usr/lib/systemd/system/mysqld.service

socket 文件：/var/run/mysqld/mysqld.pid

JDK

此文采用版本：JDK8

下载

安装文本编辑器 vim

yum -y install vim

JDK 官方下载地址：oracle jdk

使用命令下载：

wget https://download.oracle.com/otn/java/jdk/8u291-b10/d7fc238d0cbf4b0dac67be84580cfb4b/jdk-8u291-linux-x64.tar.gz?AuthParam=1619936099_3a37c8b389365d286242f4b1aa4967b0

因为 oracle 公司不允许直接通过 wget 下载官网上的 jdk 包

正确做法：

通过搜索引擎搜索 jdk 官网下载，进入 oracle 官网

勾选 accept licence agreement ，并选择你系统对应的版本

点击对应的版本下载，弹出如下下载框，然后复制下载链接
这个复制的链接结算我们 wget 命令的地址。

正确的下载链接会有”AuthParam“，这个就是 oracle 公司需要用户在下载时提供的注册信息。而且这个信息是用时间限制的，过了一段时间后就会失效，如果你想再次下载 jdk 包，只能再次重复上面的操作。

检查大小

ls -lht

设置环境变量

查看文件名（用于解压）

ls

创建文件夹

mkdir /usr/local/java

解压

tar -zxvf 你的jdk包名 -C /usr/local/java/

查看文件名（用于配置环境变量）

ls  /usr/local/java

打开配置文件

在末尾添加

# jdk8
  # 添加jdk地址变量
  JAVA_HOME=/usr/local/java
  # 添加jre地址变量
  JRE_HOME=${JAVA_HOME}/jre
  # 添加java官方库地址变量
  CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
  # 添加PATH地址变量
  PATH=${JAVA_HOME}/bin:$PATH
  # 使变量生效
  export JAVA_HOME JRE_HOME CLASSPATH PATH

刷新配置文件

source /etc/profile

添加软链接（可选）

ln -s /usr/local/java/jdk1.8.0_291/bin/java  /usr/bin/java

检查

java -version

Python

此文采用版本：Python3.6

我们已经掌握了二进制包安装的方法，所以我们直接通过 yum 来安装 Python

yum -y install python36

依赖：python36-libs

安装 pip3（默认已安装）

yum install python36-pip -y

检查

python3 --version

Scala

此文采用版本：Scala2.11.7

请确保已安装JDK8或者JDK11

下载

Scala 官方下载地址：Scala

使用命令下载：

wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz

检查大小

ls -lht

设置环境变量

查看文件名（用于解压）

ls

创建文件夹

mkdir /usr/local/scala

解压

tar -zxvf 你的jdk包名 -C /usr/local/scala/

查看文件名（用于配置环境变量）

ls  /usr/local/scala

打开配置文件

vi /etc/profile

在末尾添加

# scala 2.11.7
  # 添加scala执行文件地址变量
  SCALA_HOME=/usr/local/scala/scala-2.11.7
  # 添加PATH地址变量
  PATH=$PATH:$SCALA_HOME/bin
  # 使变量生效
  export SCALA_HOME PATH

刷新配置文件

source /etc/profile

检查

scala -version

【亲测】Hadoop 高可用集群搭建与开发环境部署

hadoop 生态简介

期待目标

环境

注意

Centos 安装

环境

镜像下载：

安装：

选择语言：

采用最小安装方案

设置 root 密码

等待完成

虚拟机帮助

网络配置

虚拟机配置修改

centos 网络配置文件修改

客户端连接

安装开发环境

Mysql

安装依赖

下载

编译安装

配置 mysql

JDK

下载

设置环境变量

Python

Scala

下载

设置环境变量

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【亲测】Hadoop 高可用集群搭建 与 开发环境部署

hadoop 生态简介

期待目标

环境

注意

Centos 安装

环境

镜像下载：

安装：

选择语言：

采用最小安装方案

设置 root 密码

等待完成

虚拟机帮助

网络配置

虚拟机配置修改

centos 网络配置文件修改

客户端连接

安装开发环境

Mysql

安装依赖

下载

编译安装

配置 mysql

JDK

下载

设置环境变量

Python

Scala

下载

设置环境变量

热门文章

最新文章

相关课程

相关电子书

相关实验场景

【亲测】Hadoop 高可用集群搭建与开发环境部署