Hadoop配置手册1:hadoop环境搭建与测试

本文涉及的产品
云防火墙,500元 1000GB
简介: Hadoop配置手册1:hadoop环境搭建与测试
+关注继续查看

Hadoop配置手册1

Date: September 25, 2022


第1章 hadoop环境搭建

1.1 安装Vmware软件

下载地址:https://www.onlinedown.net/soft/45831.htm

6fcdd65e493101c5f39f3fbe7243eeb4.png

1.运行安装程序,并连续点击下一步安装

6682b8c2655a8d6c950e477900191c98.png

1.输入密钥,启动程序

4bf12a7a00043cd73f1c73cbb74e4441.png

详细参考:https://blog.csdn.net/weixin_45014379/article/details/126102088


1.2 引入CentOS镜像

前言:


这里开始安装虚拟机,为节省硬盘容量和减轻电脑运算负担,这里采用Linux的最小化安装方式,即命令行版本


1.2.1 新建虚拟机


1.选择自定义

4b0d586d021971e3d77edf919680285f.png

1.选额Cent OS 7

efa4a18655e8aefa30c4aed34133f235.png

1.安装虚拟机位置

4d7ae4f55a4b0ca64fa628b6c3b46200.png

1.处理器配置

519fc663addca073e1c29a47f22edf80.png

1.指定磁盘容量

a3396c25e7fc9bcb675a596390b71650.png

1.指定磁盘文件配置

e26b702a8772eea1a577b549e6bfee09.png


1.2.2 编辑虚拟网络编辑器


前言:


这里其实默认配置就好,若未来有网络配置问题,则需要对此处进行修改。


1.编辑虚拟网络编辑器

3ffb94c71fba5a4f1b1262e2b6351ff6.png

1.设置NAT模式

a6564cab0860080aeb4004f22490600c.png

1.检测网关IP是否冲突

ba781ea4e59004a7d32f448b0a71aeb1.png

1.检测DHCP是否有IP冲突问题

92c218c73ebb4df805997a6b4fdb9d75.png


1.2.3 同步物理机IPv4地址


对虚拟机的网络配置完成之后,需要对物理机的IPv4进行同步


1.对VMnet8进行网络配置属性

b3df93770bc1109487e6e052968b1f7e.png

1.同步IP地址

cd8cec1a3f184114b12e776dd7be5fe3.png

1.2.4 正式安装CentOS7系统


安装之前,手动配置一下CD,即手动使用映像文件

31231a705f233d4a9fe15497f12fc367.png

1.选择英文,防止以后系统出现未知错误

1390e8e3b542c75b1a066dfe0b49e693.png

1.基础配置

377e4fd873e3daf0076f243ac8f3d3ee.png

d857eafae5bf799352df741e4c486cdb.png


1.2.5 配置CentOS

准备工作:


安装vim编辑器

yum install vim

配置网络:


1.找到并编辑 ifcfg-ens33 文件

5e3c0ebf70b262a00912236abc24ac2d.png

b8b56d18b4597bd279752035a1aa6988.png

因为要静态IP,更方便管理,所以这里BOOTPROTO设置成static


1.重启,以更新配置,并检查网卡

vim /etc/sysconfig/network-scripts/ifcfg-ens33
IPADDR=192.168.8.130
GATEWAY=192.168.8.2
DNS1=8.8.8.8
DNS2=8.8.4.4
service network restart

4e119ca49f776b580ff4c5a86a555362.png

lo是回环地址,它是一个软件实现回环


ens33是配置的网卡,我们需要查看其中的 inet是否是自己所配置的,若是就可


然后我们可以尝试用ping来ping一下百度,查看网络是否通畅


注意:这里用 ctrl+c 来停止ping


补充:这里我们需要下载一个网络工具以检查网络

yum install net-tools

关闭防火墙


分布式集群中,各个节点之间的通信会受到防火墙的阻碍,因此关闭防火墙

systemctl stop firewalld.service

禁止防火墙开机启动

systemctl disable firewalld.service

若出现网络问题,查看网络配置文件是否错误

vi /etc/sysconfig/network-scripts/ifcfg-ens33

25c180e7c69fff51afd7e3b0b1196fee.png


1.2.6 基础环境配置


配置时钟同步


在线安装 nt­p­date,使用阿里云 ntp 服务器同步时间,date 命令查看当前时间

yum install ntpdate
ntpdate ntp.aliyun.com
date

配置主机名


作用:


在网络中能够唯一标识主机,让我们能够通过ip 地址和网络主机名访问这台主机


修改主机名:

hostnamectl set-hostname master

查看修改后的主机名:

hostname

配置hosts列表


hosts 列表作用是让集群中的每台服务器彼此都知道对方的主机名和 ip 地址

vim /etc/hosts

4838e331464905cfab7bfeaed5d5f103.png

验证,ping ip 地址和主机名,结果相同无区别

ping 192.168.253.5
ping master

1.2.7 连接powershell

46933694b3ae0a4c55c8546be2cf7ecc.png

方便未来cv,节省操作时间


如果连接不上powershell:

8b7ce5db5958cfd48813e31ac3e99507.png

解决方案:


方案1:


1.修改ip地址


虚拟网络编辑:


这里的ip最好给DHCP分配范围内的

46dc0fafa1fc14d87933ddc2d67bda47.png

物理机中的VMnet8修改一下IP地址:

4fdea96b9dda87872b52b6e3f2f3866a.png

2.虚拟机同步配置


具体过程见上面配置centos中的配置网络一块

0f6e8714685431d03b19a665206441c5.png

f04d46ce0a7859b82666d0719a9d161f.png

1.配置主从机

vim /etc/hosts

41acbe313e282081709a2e8dfb648ee0.png

解决方案2:


在VMnet8中采用自动获取IP地址,解决问题

be283d8d07042c7e6a6ee070d9b8a15d.png

采用如上方式,成功解决了虚拟机与物理机ip地址冲突的问题


常用知识:查看虚拟机和物理机的ip地址


虚拟机:


ifconfig 检查虚拟机的ip

fb497bfbcc435cb8d6aad59617fe6ae7.png

物理机:


可以用在管理员权限下cmd中输入ipconfig找WLAN开头的ipv4,也可以直接找设置中的网络和Internet中的查看网络属性

903aa8e7dd12cea2a02f369fff7227ba.png

1.3 安装Java

1.安装Java

yum install java-1.8.0-openjdk

yum install java-1.8.0-openjdk-devel

1.找到Java路径, 一般在如下位置, 记住这个路径

[root@master lib]# cd /usr/lib/jvm
[root@master jvm]# cd java
[root@master java]# pwd
/usr/lib/jvm/java

1.配置profile文件

vim /etc/profile

1.文末添加如下两行, 方便其他软件读java的home环境

export JAVA_HOME=/usr/lib/jvm/java
export PATH=$JAVA_HOME/bin:$PATH

使配置生效

source /etc/profile

1.4 安装Hadoop

1.选择使用阿里云的网址下载Hadoop

https://mirrors.aliyun.com/apache/hadoop/common/hadoop-2.10.1/?spm=a2c6h.25603864.0.0.433f3a2cRJPZLj

7b4483d34e94ecbcf20e062a0f6bdcb0.png

1.解压后可得如下文件

4ac5924a1d1bb7c1955d17899bfd8cad.png

1.使用xftp连接虚拟机

1f71c6ac94297af8160acd61d6bf4358.png

然后将hadoop的压缩包转移到/usr/hadoop中


1.虚拟机中解压缩包

解压压缩包:

 tar -zxvf hadoop-2.10.1

hadoop文件路径

 /usr/hadoop/hadoop-2.10.1

配置/etc/profile文件,文末加上如下两行


注意一下这里的版本号为2.10.1

 export HADOOP_HOME=/usr/hadoop/hadoop-2.10.1
 export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存出来,source /etc/profile让文件生效


然后,我们用 hadoop version验证一下是否配置成功即可


1.将hadoop与java绑定

 cd /usr/hadoop/
 cd hadoop-2.10.1/
 cd etc/
 cd hadoop/
 
 vim hadoop-env.sh
     export JAVA_HOME=/usr/lib/jvm/java

1.Hadoop核心文件配置

进入 hadoop 的 etc 文件夹, vim core-site.xml

<configuration>
    <!--指定文件系统的入口地址,可以为主机名或ip -->
    <!--端口号默认为8020 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>
    <!--指定hadoop的临时工作存目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/hadoop/tmp</value>
    </property>
</configuration>

配置 yarn-env.sh 文件,vim yarn-env.sh

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

修改为:

export JAVA_HOME=/usr/java/jdk1.8.0_241

配置 hdfs-site.xml 文件,新增以下内容:

<configuration>
    <!--指定hdfs备份数量,小于等于从节点数目-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
        <property>
                  <name>dfs.namenode.http.address</name>
                   <value>master:50070</value>
           </property>
  <!--  自定义hdfs中namenode的存储位置-->
  <!--  <property>-->
  <!--      <name>dfs.namenode.name.dir</name>-->
  <!--      <value>file:/usr/hadoop/dfs/name</value>-->
  <!--  </property>-->
  <!--  自定义hdfs中datanode的存储位置-->
  <!--  <property>-->
  <!--      <name>dfs.datanode.data.dir</name>-->
  <!--      <value>file:/usr/hadoop/dfs/data</value>-->
  <!--</property>-->
</configuration>

配置 mapred-site.xml 文件,通过 cp 命令生成不带后缀 template 的文件

cp mapred-site.xml.template mapred-site.xml

编辑 mapred-site.xml 文件,新增以下内容:

<configuration>
    <!--hadoop的MapReduce程序运行在YARN上-->
    <!--默认值为local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置 yarn-site.xml 文件

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <!--nomenodeManager获取数据的方式是shuffle-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

编辑 slaves 文件,vim slaves,修改成如下

slave1
slave2

1.克隆虚拟机

561ece6a3c0753beac7d10e4cabd4bdd.png

64a99c549b895b8cfad7e05eb0bbdacf.png

1.配置SSH公钥

生成公钥私钥


在 mas­ter 和每台 slave 上,采用 rsa 算法产生公钥和私钥

ssh-keygen -t rsa

查看生成的私钥 id_rsa 和公钥 id_rsa.pub

cd /root/.ssh/
ls

发送公钥


在 mas­ter 上创建一个大家通用的公钥 au­tho­rized_keys,修改 au­tho­rized_keys 权限,并将这个公钥发送给每个 slave

cat id_rsa.pub >> authorized_keys
chmod 644 authorized_keys
systemctl restart sshd.service
scp /root/.ssh/authorized_keys slave1:/root/.ssh
scp /root/.ssh/authorized_keys slave2:/root/.ssh
scp /root/.ssh/authorized_keys slave3:/root/.ssh

具体配置过程如下:

92545e7ff0e6238b4117d6e2df46d075.png

1.验证SSH

ssh 登录检验,测试是否可以在主机ssh其他从机,且不用输入密码

ssh master
ssh slave1
exit
ssh slave2
exit
ssh slave3
exit

第2章 测试Hadoop安装

2.1 测试Hadoop实验

1.格式化HDFS

[root@master ~]# cd /usr/hadoop/
[root@master hadoop]# cd hadoop-2.10.1/
[root@master hadoop-2.10.1]# cd bin/
[root@master bin]# hdfs namenode -format

注意:格式化仅需进行一次


1.启动hadoop

[root@master ~]# cd /usr/hadoop/
[root@master hadoop]# cd hadoop-2.10.1/
[root@master hadoop-2.10.1]# cd bin/
[root@master bin]# hdfs namenode -format

1.查看hadoop进程

jps
//我个人的显示如下
[root@master sbin]# jps
1440 NameNode
3348 Jps
1768 ResourceManager
1628 SecondaryNameNode

1.通过web端访问hadoop

查看 YARN 界面:http://192.168.8.130:8088/

6e81406789980aab7d88cadc5f9505d5.png

查看 Na­meN­ode、DataN­ode:http://192.168.8.130:50070/

e0cbfb62de7f0a5b463fe79df4dc1f5d.png

查看 Sec­ondary­Na­meN­ode :http://192.168.8.130:50090/

9361a0d9297801889f152f71c644b94b.png

b6bcf5dda99b439db802f1066a310cdb.png

相关文章
|
3月前
|
存储 分布式计算 Hadoop
Hadoop配置手册2: 测试Hdfs和WordCount测试
Hadoop配置手册2: 测试Hdfs和WordCount测试
58 0
|
分布式计算 资源调度 Hadoop
环境篇之 hadoop 集群的测试|学习笔记
快速学习环境篇之 hadoop 集群的测试
131 0
环境篇之 hadoop 集群的测试|学习笔记
|
分布式计算 资源调度 Java
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
|
分布式计算 Hadoop API
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
|
分布式计算 资源调度 Hadoop
Hadoop运行环境搭建(开发重点四)在hadoop102安装hadoop、配置hadoop环境变量、测试Hadoop是否安装成功、hadoop重要目录
Hadoop运行环境搭建(开发重点四)在hadoop102安装hadoop、配置hadoop环境变量、测试Hadoop是否安装成功、hadoop重要目录
Hadoop运行环境搭建(开发重点四)在hadoop102安装hadoop、配置hadoop环境变量、测试Hadoop是否安装成功、hadoop重要目录
|
分布式计算 Java Hadoop
Hadoop运行环境搭建(开发重点三)、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功
为什么只在hadoop102上安装JDK,因为在hadoop102中安装后将JDK拷贝到hadoop103和hadoop104中,同样后面安装Hadoop的时候也是这样的操作、解压JDK到/opt/module目录下、配置好后需要source一下,重新加载一下内容、在Linux系统下的opt目录中查看软件包是否导入成功、用Xftp传输工具将JDK导入到opt目录下面的software文件夹下面、系统启动的时候就会加载/etc/profile.d这里面的文件.........
Hadoop运行环境搭建(开发重点三)、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功
|
存储 SQL 分布式计算
【小白视角】大数据基础实践(二)Hadoop环境搭建与测试
【小白视角】大数据基础实践(二)Hadoop环境搭建与测试
125 0
【小白视角】大数据基础实践(二)Hadoop环境搭建与测试
|
分布式计算 监控 大数据
大数据||hadoop分布式部署分发、基本测试及监控
先看文章大数据||hadoop分布式集群安装 分发包括:通过主节点给子节点分发数据。免密形式 基本测试包括:创建目录,上传文件、读取文件等 HDFS namenode节点格式化(131) 命令bin/hdfs namenode -format 说明:只有第一次部署的格式化。
1250 0
|
分布式计算 Hadoop Java
热门文章
最新文章
推荐文章
更多