hadoop3自学入门笔记(2)—— HDFS分布式搭建-阿里云开发者社区

hadoop3自学入门笔记(2)—— HDFS分布式搭建

2023-02-01 219 发布于山西

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： hadoop3自学入门笔记(2)—— HDFS分布式搭建

一些介绍

Hadoop 2和Hadoop 3的端口区别

Hadoop 3 HDFS集群架构

我的集群规划

name	ip	role
61	192.168.3.61	namenode, datanode
62	192.168.3.62	datanode
63	192.168.3.63	secondnamenode
64	192.168.3.64	datanode

1.安装JDK

利用FileZilla sftp功能进行上传到指定文件夹下/root/software,下图是配置sftp.

解压使用命令tar -xvzf jdk-8u241-linux-x64.tar.gz 解压到当前文件夹下。

配置环境变量，输入命令vim /etc/profile，添加

JAVA_HOME=/root/software/jdk1.8.0_241
PATH=$JAVA_HOME/bin:$PATH

最后退出vi,输入source /etc/profile

测试输入命令java -version,如果展示

root@localhost ~]# java -version
java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)
[root@localhost ~]#

安装成功！

ssh免密配置请查看

2.配置Hadoop

sftp://root@192.168.3.62/root/software/hadoop-3.2.1.tar.gz

解压。

2.1部署及配置

Hadoop的配置涉及以下几个文件，分别是：hadoop-env.sh、core-site.xml、hdfs-site.xml和workers。其中，hadoop-env.sh是Hadoop运行环境变量配置；core-site.xml是Hadoop公共属性的配置；hdfs-site.xml是关于HDFS的属性配置；workers是DataNode分布配置。下面我们分别配置这几个文件。

以61为中心配置，最后复制到其他服务器

hadoop-env.sh文件

在/etc/hadoop/hadoop-env.sh中配置运行环境变量，在默认情况下，这个文件是没有任何配置的。我们需要配置JAVA_HOME、HDFS_NAMENODE_USER和HDFS_DATANODE_USER等，HDFS_SECONDARYNAMENODE_USER配置代码如下：

在尾部加入
export JAVA_HOME=/root/software/jdk1.8.0_241
export  HDFS_NAMENODE_USER=root
export  HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

其中，JAVA_HOME=/root/software/jdk1.8.0_241是指定JDK的位置，HDFS_NAMENODE_USER=root是指定操作NameNode进程的用户是root。同理，HDFS_DATANODE_USER和HDFS_SECONDARYNAMENODE_USER分别指定了操作DataNode和Secondary NameNode的用户，在这里我们设置为root用户，具体应用时，读者根据情况进行设置即可。在这里需要注意的是，HDFS_NAMENODE_USER、HDFS_DATANODE_USER和HDFS_SECONDARYNAMENODE_USER是Hadoop 3.x为了提升安全性而引入的。

core-site.xml文件

core-site.xml中主要配置Hadoop的公共属性，配置代码如下：

<configuration>
  <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.3.61:9820</value>
    </property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoopdata</value>
    </property>
</configuration>

其中，fs.defaultFS是指定NameNode所在的节点，在这里配置为node1；9820是默认端口；hdfs：是协议；hadoop.tmp.dir是配置元数据所存放的配置，这里配置为/opt/hadoopdata，后续如果需要查看fsiamge和edits文件，可以到这个目录下查找。

hdfs-site.xml文件

hdfs-site.xml文件中主要是HDFS属性配置，配置代码如下：

<configuration>
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>192.168.3.63:9868</value>
    </property>
<property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
<property>
 <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
 <value>false</value>
</property>

其中，dfs.namenode.secondary.http-address属性是配置Secondary NameNode的节点，在这里配置为node2。端口为9868。

关于这些配置，读者可以从官网上查找，网址为https://hadoop.apache.org/docs/stable/index.html，其中的左下角有个Configuration项，其中包括core-default.xml等配置文件。

workers文件

在workers中配DataNode节点，在其中写入：

192.168.3.61
192.168.3.62
192.168.3.64

2.2 将配置复制到其他服务器

进入 /root/software/hadoop-3.2.1/etc 目录

输入命令

scp  -r ./hadoop   192.168.3.62:/root/software/hadoop-3.2.1/etc/
 scp  -r ./hadoop   192.168.3.63:/root/software/hadoop-3.2.1/etc/
 scp  -r ./hadoop   192.168.3.64:/root/software/hadoop-3.2.1/etc/

2.3配置下hadoop的环境变量，方便输入命令

export JAVA_HOME=/root/software/jdk1.8.0_241
export HADOOP_HOME=/root/software/hadoop-3.2.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2.4格式化

第一次安装Hadoop需要进行格式化，以后就不需要了。格式化命令在hadoop/bin下面，执行如下命令：

hdfs namenode -formate

格式化后会创建一个空白的fsimage文件，可以在opt/hadoopdata/dfs/name/current中找到fsimage文件，注意此时没有edits文件。

3.启动

进入hadoop/sbin下面运行start-dfs.sh，启动HDFS集群，启动命令如下：

./start-dfs.sh

这时，可以在不同节点中通过jps命令查看不同的进程。

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAwMzIwMzUtOTVlNWQyMDQtNzRiNy00OTE5LTljZjItY2IzOWExOTAwZDBkLnBuZw.png

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAwNDk4NzYtZjdiYmI2NjUtZGMzNi00NGFhLTgzOTgtN2U2NGYxYjJhNzE3LnBuZw.png

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAyMjkxMTctMTRkNmE5MjgtYzMwYy00YTVkLTg0YWItYjI1OWQ4N2IxNjBiLnBuZw.png

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAyNjA0OTktODMyMTI1ODYtNzIyNi00NzdjLWFhNmItZWIxYzUxNjBiNzVkLnBuZw.png

表示都已经启动。

4.打开浏览器查看HDFS监听页面

在浏览器中输入http://ip:9870，比如这里输入http://192.168.30.61:9870/，出现以下界面则表示Hadoop完全分布式搭建成功

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAzNzU5NzQtZWU5MWU0OTQtNjlmOS00MDI3LThjYTItMDVlYTc3ZjlmNTM1LnBuZw.png

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjA5MDQyMTYtYTUwZDhkOTEtYzgzZS00MDM1LWI3MDUtY2U3ZDUwOWQ1ZjY3LnBuZw.png

选择Datanodes选项，可以看到DataNode的利用率和DataNode的节点状态

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjA5OTY3NjEtMjU5YjU5NTktYmJmZi00MDBjLWE3YWItOWQ4NWM3YjQ3YjQxLnBuZw.png

这里只显示了一个比较奇怪，以后再研究。

参考书籍

《从零开始学Hadoop大数据分析（视频教学版）》

hadoop3自学入门笔记(2)—— HDFS分布式搭建

一些介绍

Hadoop 2和Hadoop 3的端口区别

Hadoop 3 HDFS集群架构

我的集群规划

1.安装JDK

2.配置Hadoop

2.1部署及配置

2.2 将配置复制到其他服务器

2.3配置下hadoop的环境变量，方便输入命令

2.4格式化

3.启动

4.打开浏览器查看HDFS监听页面

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

hadoop3自学入门笔记(2)—— HDFS分布式搭建

一些介绍

Hadoop 2和Hadoop 3的端口区别

Hadoop 3 HDFS集群架构

我的集群规划

1.安装JDK

2.配置Hadoop

2.1部署及配置

2.2 将配置复制到其他服务器

2.3配置下hadoop的环境变量，方便输入命令

2.4格式化

3.启动

4.打开浏览器查看HDFS监听页面

热门文章

最新文章

相关课程

相关电子书

相关实验场景