Hadoop学习系列一：环境搭建-阿里云开发者社区

Hadoop学习系列一：环境搭建

2018-07-08 3252

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hadoop学习系列一：环境搭建为了学习HBase，跑过来先把Hadoop学习下。主要是根据马士兵老师之前直播的教程来学习的。好了，废话不多说了，开搞。一. 安装虚拟机相比VMware，Vritual Box是免费的，因此这里采用Virtual Box。

Hadoop学习系列一：环境搭建

为了学习HBase，跑过来先把Hadoop学习下。主要是根据马老师之前直播的教程来学习的。好了，废话不多说了，开搞。

一. 安装虚拟机

相比VMware，Vritual Box是免费的，因此这里采用Virtual Box。首先在virtualbox官网的下载页面下载Virtual Box，并安装。安装过程没什么好说的。

二. 在虚拟机里安装CentOS

在CentOS官网下载最新版的CentOS 7，下载的时候要DVD ISO，Minimal ISO文件虽然比较小，但不能满足我们的需求。

下载完成后，打开Virtual Box，点击“新建”，输入虚拟机的名称(我这里输入“node1”)，类型选择“Linux”，因为这里下载的CentOS是64位版本，所有这里的版本要选择“Red Hat (64-bit)”，点击“下一步”。
“内存大小”先设置1G，选择“下一步”。
“虚拟硬盘”选择“现在创建虚拟硬盘”，点击“创建”。
”虚拟硬盘文件类型“默认就好，选择“下一步”。
”存储在物理硬盘上“选择“动态分配”，选择“下一步”。最后点击“创建”按钮，完成虚拟机“node1”的创建。

node1创建好后，如下图所示：

接下来安装CentOS 7系统：
右键单击虚拟机“node1”，点击“设置”-“存储”，右侧“存储介质”-“控制器：IDE”的后面，有个“添加虚拟光驱”按钮，如下图红色方框中：

点击该按钮后，点“选择磁盘”，然后选择之前下载好的CentOS7的ISO镜像文件后，点“OK”。

然后双击启动虚拟机"node1"。

安装过程中，“软件选择”要选择“基础设施服务器”，“安装位置”点“完成”，然后点“开始安装”就可以了。
安装过程中需要设置root用户的密码。
另外需要注意的是：如果想从Virtual Box虚拟机中切换到宿主机的话，按右边的“Ctrl”键即可。

三. 配置CentOS

系统安装好后，先配置下虚拟机的网络：
将node1虚拟机的网络中网卡连接方式设置为“仅主机(Host-Only)网络”。cmd下ipconfig命令查看Virtual Box虚拟网卡的IP地址，如下图：

我这里的IP地址为192.168.56.1，子网掩码255.255.255.0

CentOS下设置node1的IP地址为192.168.56.100，子网掩码为255.255.255.0:

vim /etc/sysconfig/network-scripts/ifcfg-enp0s3

TYPE=Ethernet
IPADDR=192.168.56.100
NETMASK=255.255.255.0

设置node1的网关：

vim /etc/sysconfig/network

NETWORKING=yes
GATEWAY=192.68.56.1

设置node1的hostname：

hostnamectl set-hostname node1

停止防火墙并禁止开机启动：

systemctl stop firewalld

systemctl disable firewalld

重启网络：

systemctl restart network

这个时候主机和虚拟机应该可以相互ping通了:

ping 192.168.56.1

如果出现虚拟机ping不通主机，但是主机可以ping通虚拟机的情况，可以参考https://blog.csdn.net/u014594922/article/details/53426225

四. 安装java和hadoop

下载jdk和hadoop
使用xshell登陆到node1,使用xftp将jdk和hadoop复制到node1

安装jdk：

rpm -ivh jdk-8u171-linux-x64.rpm

安装hadoop：

tar -zxvf hadoop-2.9.1.tar.gz

配置hadoop环境变量:

vim /etc/profile

添加下面代码:

export PATH=$PATH:/root/hadoop-2.9.1/bin:/root/hadoop-2.9.1/sbin

使环境变量生效:

source /etc/profile

在hadoop中指明java路径：

vim /root/hadoop-2.9.1/etc/hadoop/hadoop-env.sh

将其中的JAVA_HOME改为/usr:

export JAVA_HOME=/usr

五. 复制虚拟机及配置hadoop

将node1关机，复制3份，使用完全复制，命名为node2、node3、node4，并依次打开，配置IP地址分别192.168.56.101，192.168.56.102，192.168.56.103，hostname分别为node2、node3、node4

使用“无界面启动”方式用打开四个虚拟机，并用xshell创建4个对应的会话

勾选xshell的“工具”-“发送键输入到所有会话”，可以同时向4个会话发送内容

切换到4个会话的hadoop目录下：

cd ~/hadoop-2.9.1

修改4个会话的文件,用于指明namenode：etc/hadoop/core-site.xml

vim etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
</configuration>

修改4个会话的hosts文件：

vim /etc/hosts

192.168.56.100 node1
192.168.56.101 node2
192.168.56.102 node3
192.168.56.103 node4

在node1会话中初始化hdfs:

hdfs namenode -format

输入y

在node1会话中开启namenode:

hadoop-daemon.sh start namenode

在node1会话中jps，出现NameNode说明启动成功：

jps

4483 Jps
4404 NameNode

在node2、node3、node4会话中开启datanode:

hadoop-daemon.sh start datanode

在node2、node3、node4会话中jps，出现DataNode说明启动成功：

jps

5314 DataNode
5391 Jps

通过web页面查看hadoop状态

node1下查看hadoop的web页面端口：

netstat -ntlp | grep java

tcp 0 0 192.168.56.100:9000 0.0.0.0:* LISTEN 4491/java
tcp 0 0 0.0.0.0:50070 0.0.0.0:* LISTEN 4491/java

50070就是hadoop的web页面端口

浏览器打开http://192.168.56.100:50070:

可以看到Live Nodes是3，说明由node1管理的3个节点在运行中

在namenode上使用slaves文件启动datanode

其实可以直接在namenode上启动datanode，但要确保datanode上的hadoop路径与namenode上的一致，而且需要datanode配置了上一篇文章中提到的core-site.xml。在etc/hadoop/slaves中添加所有的datanode节点：

node2
node3
node4

使用下列命令启动整个集群：

start-dfs.sh

运行完成后，发现datanode也都启动了

在namenode上免密启动datanode

虽然上面通过slaves文件已经可以启动整个集群了，但是在连接每个datanode时都需要输入密码，很不方便。

到root用户的.ssh下：

cd /root/.ssh

生成密钥对:

ssh-keygen -t rsa

将密钥对拷贝到所有node中:

ssh-copy-id node1

ssh-copy-id node2
ssh-copy-id node3
ssh-copy-id node4

接下来，启动和结束hdfs时不需要再输入密码

hdfs的使用

使用hadoop fs或hdfs dfs可查看帮助

将文件1.txt保存到hdfs根目录下:

hadoop fs -put ./1.txt /

查看hdfs根目录文件:

hadoop fs -ls /

命令和linux下命令很像

Hadoop学习系列一：环境搭建

一. 安装虚拟机

二. 在虚拟机里安装CentOS

三. 配置CentOS

四. 安装java和hadoop

五. 复制虚拟机及配置hadoop

通过web页面查看hadoop状态

在namenode上使用slaves文件启动datanode

在namenode上免密启动datanode

hdfs的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hadoop学习系列一：环境搭建

一. 安装虚拟机

二. 在虚拟机里安装CentOS

三. 配置CentOS

四. 安装java和hadoop

五. 复制虚拟机及配置hadoop

通过web页面查看hadoop状态

在namenode上使用slaves文件启动datanode

在namenode上免密启动datanode

hdfs的使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景