Hadoop核心组件之HDFS的安装与配置

简介: Hadoop核心组件之HDFS的安装与配置

0x00 教程内容


  1. Hadoop的获取
  2. 上传安装包到集群
  3. 安装与配置Hadoop
  4. 简便配置


0x01 Hadoop的获取


1. 官网下载

a. 为了统一,此处下载Hadoop-2.7.5版本 :

http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/

选择hadoop-2.7.5.tar.gz进行下载

PS:

HDFS、MapReduce、YARN均是Hadoop核心组件,所以均使用Hadoop安装包,然后再配置即可!


2. 添加微信:shaonaiyi888

3. 关注公众号:邵奈一

a. 回复hadoop获取


0x02 上传安装包到集群


1. 上传安装包到虚拟机

a. 可以用XFtp软件上传到master(~/software/


0x02 安装与配置Hadoop


1. 解压Hadoop

a. 进入安装包路径下:

cd ~/software/

b. 解压hadoop安装包到~/bigdata路径下(如果没有此文件夹,则先创建)

tar -zxvf hadoop-2.7.5.tar.gz -C ~/bigdata/


2. 配置Hadoop

a. 进入hadoop配置文件目录

cd ~/bigdata/hadoop-2.7.5/etc/hadoop/


image.png

image.png


b. 修改配置文件:vi core-site.xml

添加内容:

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9999</value>
  <description>表示HDFS的基本路径</description>
</property>


image.png


c. 修改配置文件:vi hdfs-site.xml

添加内容:

<property>
  <name>dfs.replication</name> 
  <value>1</value>
  <description>表示数据块的备份数量,不能大于DataNode的数量</description>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop-sny/bigdata/dfs/name</value>
  <description>表示NameNode需要存储数据的地方</description>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop-sny/bigdata/dfs/data</value>
  <description>DataNode存放数据的地方</description>
</property>


image.png


d. 修改配置文件:vi hadoop-env.sh

修改JAVA_HOME

export JAVA_HOME=/usr/local/lib/jdk1.8.0_161

image.png


e. 修改配置文件:vi slaves

删除里面的localhost,添加从节点的hostname:

slave1

slave2

image.png


f. 创建存放数据的文件夹

mkdir -p ~/bigdata/dfs/name

mkdir -p ~/bigdata/dfs/data

image.png


3. 同步Hadoop到slave1、slave2

a. 在slave1和slave2节点中的hadoop-sny用户下的主目录下创建bigdata目录:

mkdir bigdata

b. 复制master节点上的hadoop主目录到slave1、slave2:

scp -r ~/bigdata/hadoop-2.7.5 hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/hadoop-2.7.5 hadoop-sny@slave2:~/bigdata

c. 复制master节点上的数据文件目录到slave1、slave2:

scp -r ~/bigdata/dfs hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/dfs hadoop-sny@slave2:~/bigdata

d. 复制完成后,可以看到slave1、slave2上已经有hadoop了

ls ~/bigdata/


image.png


4. 校验HDFS

a. 在master上执行格式化HDFS:

cd ~/bigdata/hadoop-2.7.5/bin

./hdfs namenode -format

b. 执行成功后可以看到格式化成功的字样:

image.png

c. 启动HDFS:

cd ../sbin

./start-dfs.sh

d. 查看三台服务器的进程情况:

image.png

PS:发现有进程,已经成功了99%啦!还有1%要上传了文件才知道!

e. 查看Web UI界面

在window用浏览器打开端口(master的ip地址是192.168.128.131

http://192.168.128.131:50070


image.png


f. 截止,HDFS就已经安装好了,但是,我们还发现了两个问题:

  • 启动HDFS的时候,要进入到Hadoop的主目录,比较麻烦
  • 访问Web UI的时候要输入ip地址,再加端口号,记住ip地址比较困难


0x03 简便配置


1. 环境变量配置

a. 现在我们想要执行hadoopstart-dfs.sh等命令是要进入到相应的路径才可以执行的,我们可以将相关的路径配置到环境变量

b. 配置master的环境变量(hadoop-sny用户)

vi ~/.bash_profile

export HADOOP_HOME=~/bigdata/hadoop-2.7.5
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


image.png


c. 使环境变量生效

source ~/.bash_profile

d. 校验环境变量是否生效

echo $HADOOP_HOME

which hdfs

均有内容输出:


image.png


2. 域名映射配置

a. 修改windows的域名映射(与教程:IDEA2018安装与配置 中的道理是一样的

):

C:\Windows\System32\drivers\etc\hosts

image.png


0xFF 总结


  1. 因为之前我们的专栏 复制粘贴玩转大数据系列专栏 用docker安装Hadoop环境时我们没有常规的安装HDFS,所以就补上了这个。
  2. 感谢您的阅读,我是邵奈一,很高兴认识您。
相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
149 6
|
10天前
|
SQL 分布式计算 Hadoop
【赵渝强老师】Hadoop生态圈组件
本文介绍了Hadoop生态圈的主要组件及其关系,包括HDFS、HBase、MapReduce与Yarn、Hive与Pig、Sqoop与Flume、ZooKeeper和HUE。每个组件的功能和作用都进行了简要说明,帮助读者更好地理解Hadoop生态系统。文中还附有图表和视频讲解,以便更直观地展示这些组件的交互方式。
|
1月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
69 4
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
73 2
|
1月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
47 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
47 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
86 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
37 0
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
46 0
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
65 2