Hadoop核心组件之HDFS的安装与配置

简介: Hadoop核心组件之HDFS的安装与配置

0x00 教程内容


  1. Hadoop的获取
  2. 上传安装包到集群
  3. 安装与配置Hadoop
  4. 简便配置


0x01 Hadoop的获取


1. 官网下载

a. 为了统一,此处下载Hadoop-2.7.5版本 :

http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/

选择hadoop-2.7.5.tar.gz进行下载

PS:

HDFS、MapReduce、YARN均是Hadoop核心组件,所以均使用Hadoop安装包,然后再配置即可!


2. 添加微信:shaonaiyi888

3. 关注公众号:邵奈一

a. 回复hadoop获取


0x02 上传安装包到集群


1. 上传安装包到虚拟机

a. 可以用XFtp软件上传到master(~/software/


0x02 安装与配置Hadoop


1. 解压Hadoop

a. 进入安装包路径下:

cd ~/software/

b. 解压hadoop安装包到~/bigdata路径下(如果没有此文件夹,则先创建)

tar -zxvf hadoop-2.7.5.tar.gz -C ~/bigdata/


2. 配置Hadoop

a. 进入hadoop配置文件目录

cd ~/bigdata/hadoop-2.7.5/etc/hadoop/


image.png

image.png


b. 修改配置文件:vi core-site.xml

添加内容:

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9999</value>
  <description>表示HDFS的基本路径</description>
</property>


image.png


c. 修改配置文件:vi hdfs-site.xml

添加内容:

<property>
  <name>dfs.replication</name> 
  <value>1</value>
  <description>表示数据块的备份数量,不能大于DataNode的数量</description>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop-sny/bigdata/dfs/name</value>
  <description>表示NameNode需要存储数据的地方</description>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop-sny/bigdata/dfs/data</value>
  <description>DataNode存放数据的地方</description>
</property>


image.png


d. 修改配置文件:vi hadoop-env.sh

修改JAVA_HOME

export JAVA_HOME=/usr/local/lib/jdk1.8.0_161

image.png


e. 修改配置文件:vi slaves

删除里面的localhost,添加从节点的hostname:

slave1

slave2

image.png


f. 创建存放数据的文件夹

mkdir -p ~/bigdata/dfs/name

mkdir -p ~/bigdata/dfs/data

image.png


3. 同步Hadoop到slave1、slave2

a. 在slave1和slave2节点中的hadoop-sny用户下的主目录下创建bigdata目录:

mkdir bigdata

b. 复制master节点上的hadoop主目录到slave1、slave2:

scp -r ~/bigdata/hadoop-2.7.5 hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/hadoop-2.7.5 hadoop-sny@slave2:~/bigdata

c. 复制master节点上的数据文件目录到slave1、slave2:

scp -r ~/bigdata/dfs hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/dfs hadoop-sny@slave2:~/bigdata

d. 复制完成后,可以看到slave1、slave2上已经有hadoop了

ls ~/bigdata/


image.png


4. 校验HDFS

a. 在master上执行格式化HDFS:

cd ~/bigdata/hadoop-2.7.5/bin

./hdfs namenode -format

b. 执行成功后可以看到格式化成功的字样:

image.png

c. 启动HDFS:

cd ../sbin

./start-dfs.sh

d. 查看三台服务器的进程情况:

image.png

PS:发现有进程,已经成功了99%啦!还有1%要上传了文件才知道!

e. 查看Web UI界面

在window用浏览器打开端口(master的ip地址是192.168.128.131

http://192.168.128.131:50070


image.png


f. 截止,HDFS就已经安装好了,但是,我们还发现了两个问题:

  • 启动HDFS的时候,要进入到Hadoop的主目录,比较麻烦
  • 访问Web UI的时候要输入ip地址,再加端口号,记住ip地址比较困难


0x03 简便配置


1. 环境变量配置

a. 现在我们想要执行hadoopstart-dfs.sh等命令是要进入到相应的路径才可以执行的,我们可以将相关的路径配置到环境变量

b. 配置master的环境变量(hadoop-sny用户)

vi ~/.bash_profile

export HADOOP_HOME=~/bigdata/hadoop-2.7.5
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


image.png


c. 使环境变量生效

source ~/.bash_profile

d. 校验环境变量是否生效

echo $HADOOP_HOME

which hdfs

均有内容输出:


image.png


2. 域名映射配置

a. 修改windows的域名映射(与教程:IDEA2018安装与配置 中的道理是一样的

):

C:\Windows\System32\drivers\etc\hosts

image.png


0xFF 总结


  1. 因为之前我们的专栏 复制粘贴玩转大数据系列专栏 用docker安装Hadoop环境时我们没有常规的安装HDFS,所以就补上了这个。
  2. 感谢您的阅读,我是邵奈一,很高兴认识您。
相关文章
|
28天前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
42 3
Hadoop集群配置https实战案例
|
2月前
|
存储 分布式计算 Hadoop
Hadoop 的两个主要组件是什么?
【8月更文挑战第12天】
146 4
Hadoop 的两个主要组件是什么?
|
2月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
56 1
|
2月前
|
存储 缓存 分布式计算
|
2月前
|
XML 分布式计算 监控
详细指南:在Hadoop中配置Oozie作业
【8月更文挑战第31天】
33 0
|
2月前
|
存储 分布式计算 资源调度
什么是Hadoop及其组件?
【8月更文挑战第31天】
48 0
|
2月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
59 0
|
4月前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
526 4
|
2月前
|
存储 分布式计算 运维
Hadoop重新格式化HDFS的方案
【8月更文挑战第8天】

热门文章

最新文章

相关实验场景

更多