hadoop3自学入门笔记(2)—— HDFS分布式搭建

简介: hadoop3自学入门笔记(2)—— HDFS分布式搭建

一些介绍

Hadoop 2和Hadoop 3的端口区别

1.png

Hadoop 3 HDFS集群架构

2.png


我的集群规划

name

ip

role

61

192.168.3.61

namenode,

datanode

62

192.168.3.62

datanode

63

192.168.3.63

secondnamenode

64

192.168.3.64

datanode


1.安装JDK

利用FileZilla sftp功能进行上传到指定文件夹下/root/software,下图是配置sftp.

3.png4.png

解压使用命令tar -xvzf jdk-8u241-linux-x64.tar.gz 解压到当前文件夹下。

配置环境变量,输入命令vim /etc/profile,添加

JAVA_HOME=/root/software/jdk1.8.0_241
PATH=$JAVA_HOME/bin:$PATH

最后退出vi,输入source /etc/profile

测试输入命令java -version,如果展示

root@localhost ~]# java -version
java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)
[root@localhost ~]#

安装成功!

ssh免密配置请查看

2.配置Hadoop

sftp://root@192.168.3.62/root/software/hadoop-3.2.1.tar.gz

解压。

2.1部署及配置

Hadoop的配置涉及以下几个文件,分别是:hadoop-env.sh、core-site.xml、hdfs-site.xml和workers。其中,hadoop-env.sh是Hadoop运行环境变量配置;core-site.xml是Hadoop公共属性的配置;hdfs-site.xml是关于HDFS的属性配置;workers是DataNode分布配置。下面我们分别配置这几个文件。

以61为中心配置,最后复制到其他服务器


hadoop-env.sh文件

在/etc/hadoop/hadoop-env.sh中配置运行环境变量,在默认情况下,这个文件是没有任何配置的。我们需要配置JAVA_HOME、HDFS_NAMENODE_USER和HDFS_DATANODE_USER等,HDFS_SECONDARYNAMENODE_USER配置代码如下:

在尾部加入
export JAVA_HOME=/root/software/jdk1.8.0_241
export  HDFS_NAMENODE_USER=root
export  HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

其中,JAVA_HOME=/root/software/jdk1.8.0_241是指定JDK的位置,HDFS_NAMENODE_USER=root是指定操作NameNode进程的用户是root。同理,HDFS_DATANODE_USER和HDFS_SECONDARYNAMENODE_USER分别指定了操作DataNode和Secondary NameNode的用户,在这里我们设置为root用户,具体应用时,读者根据情况进行设置即可。在这里需要注意的是,HDFS_NAMENODE_USER、HDFS_DATANODE_USER和HDFS_SECONDARYNAMENODE_USER是Hadoop 3.x为了提升安全性而引入的。


core-site.xml文件

core-site.xml中主要配置Hadoop的公共属性,配置代码如下:

<configuration>
  <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.3.61:9820</value>
    </property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/hadoopdata</value>
    </property>
</configuration>

其中,fs.defaultFS是指定NameNode所在的节点,在这里配置为node1;9820是默认端口;hdfs:是协议;hadoop.tmp.dir是配置元数据所存放的配置,这里配置为/opt/hadoopdata,后续如果需要查看fsiamge和edits文件,可以到这个目录下查找。


hdfs-site.xml文件

hdfs-site.xml文件中主要是HDFS属性配置,配置代码如下:

<configuration>
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>192.168.3.63:9868</value>
    </property>
<property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
<property>
 <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
 <value>false</value>
</property>

其中,dfs.namenode.secondary.http-address属性是配置Secondary NameNode的节点,在这里配置为node2。端口为9868。

关于这些配置,读者可以从官网上查找,网址为https://hadoop.apache.org/docs/stable/index.html,其中的左下角有个Configuration项,其中包括core-default.xml等配置文件。


workers文件

在workers中配DataNode节点,在其中写入:


192.168.3.61
192.168.3.62
192.168.3.64

2.2 将配置复制到其他服务器

进入 /root/software/hadoop-3.2.1/etc 目录

输入命令

scp  -r ./hadoop   192.168.3.62:/root/software/hadoop-3.2.1/etc/
 scp  -r ./hadoop   192.168.3.63:/root/software/hadoop-3.2.1/etc/
 scp  -r ./hadoop   192.168.3.64:/root/software/hadoop-3.2.1/etc/

2.3配置下hadoop的环境变量,方便输入命令

export JAVA_HOME=/root/software/jdk1.8.0_241
export HADOOP_HOME=/root/software/hadoop-3.2.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2.4格式化

第一次安装Hadoop需要进行格式化,以后就不需要了。格式化命令在hadoop/bin下面,执行如下命令:

hdfs namenode -formate

格式化后会创建一个空白的fsimage文件,可以在opt/hadoopdata/dfs/name/current中找到fsimage文件,注意此时没有edits文件。

3.启动

进入hadoop/sbin下面运行start-dfs.sh,启动HDFS集群,启动命令如下:

./start-dfs.sh

这时,可以在不同节点中通过jps命令查看不同的进程。

61

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAwMzIwMzUtOTVlNWQyMDQtNzRiNy00OTE5LTljZjItY2IzOWExOTAwZDBkLnBuZw.png

62

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAwNDk4NzYtZjdiYmI2NjUtZGMzNi00NGFhLTgzOTgtN2U2NGYxYjJhNzE3LnBuZw.png

63

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAyMjkxMTctMTRkNmE5MjgtYzMwYy00YTVkLTg0YWItYjI1OWQ4N2IxNjBiLnBuZw.png


64

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAyNjA0OTktODMyMTI1ODYtNzIyNi00NzdjLWFhNmItZWIxYzUxNjBiNzVkLnBuZw.png

表示都已经启动。

4.打开浏览器查看HDFS监听页面

在浏览器中输入http://ip:9870,比如这里输入http://192.168.30.61:9870/,出现以下界面则表示Hadoop完全分布式搭建成功

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjAzNzU5NzQtZWU5MWU0OTQtNjlmOS00MDI3LThjYTItMDVlYTc3ZjlmNTM1LnBuZw.png



aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjA5MDQyMTYtYTUwZDhkOTEtYzgzZS00MDM1LWI3MDUtY2U3ZDUwOWQ1ZjY3LnBuZw.png

选择Datanodes选项,可以看到DataNode的利用率和DataNode的节点状态

aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlLzAvMjAyMC9wbmcvMzU0MTU4LzE1ODIxNjA5OTY3NjEtMjU5YjU5NTktYmJmZi00MDBjLWE3YWItOWQ4NWM3YjQ3YjQxLnBuZw.png


这里只显示了一个比较奇怪,以后再研究。


参考书籍

《从零开始学Hadoop大数据分析(视频教学版)》


相关文章
|
8月前
|
存储 算法 安全
“卧槽,系统又崩了!”——别慌,这也许是你看过最通俗易懂的分布式入门
本文深入解析分布式系统核心机制:数据分片与冗余副本实现扩展与高可用,租约、多数派及Gossip协议保障一致性与容错。探讨节点故障、网络延迟等挑战,揭示CFT/BFT容错原理,剖析规模与性能关系,为构建可靠分布式系统提供理论支撑。
372 2
|
存储 SQL 分布式数据库
OceanBase 入门:分布式数据库的基础概念
【8月更文第31天】在当今的大数据时代,随着业务规模的不断扩大,传统的单机数据库已经难以满足高并发、大数据量的应用需求。分布式数据库应运而生,成为解决这一问题的有效方案之一。本文将介绍一款由阿里巴巴集团自主研发的分布式数据库——OceanBase,并通过一些基础概念和实际代码示例来帮助读者理解其工作原理。
1406 0
|
SQL 分布式计算 Hadoop
Hadoop生态系统:从小白到老司机的入门指南
Hadoop生态系统:从小白到老司机的入门指南
623 13
|
消息中间件 关系型数据库 Java
‘分布式事务‘ 圣经:从入门到精通,架构师尼恩最新、最全详解 (50+图文4万字全面总结 )
本文 是 基于尼恩之前写的一篇 分布式事务的文章 升级而来 , 尼恩之前写的 分布式事务的文章, 在全网阅读量 100万次以上 , 被很多培训机构 作为 顶级教程。 此文修改了 老版本的 一个大bug , 大家不要再看老版本啦。
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
721 5
|
XML 大数据 网络安全
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
339 5
|
Dubbo Java 应用服务中间件
分布式-dubbo的入门
分布式-dubbo的入门
|
分布式计算 应用服务中间件 Docker
Hadoop HDFS分布式文件系统Docker版
一、Hadoop文件系统HDFS 构建单节点的伪分布式HDFS 构建4个节点的HDFS分布式系统 nameNode secondnameNode datanode1 datanode2 其中 datanode2动态节点,在HDFS系统运行时,==动态加入==。
3240 0
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
698 79
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
1027 6

相关实验场景

更多