编者按:本文来自轻量应用服务器征文活动用户投稿,已获得作者(昵称Maynor大数据)授权发布。
由于我在工作学习中经常需要使用到Hadoop集群,而本地Hadoop有启动速度慢、操作麻烦和占用内存等痛点。最近在和粉丝的交流中,一位提到的伪分布式部署Hadoop的概念启发了我。正好领取的服务器还没开始用,何不用来部署云集群?以下为具体的部署过程,我选择的是Hadoop3.x的伪分布式部署方法。
1、领取轻量应用服务器
阿里云的产品活动还是很给力的,遇到像双11这样的大促活动,甚至可以做到免费获得服务器。如果你是学生,买轻量应用服务器还是很便宜的,只需要9元/月, 也可以参与阿里云开发者成长计划。
2、服务器选择和配置
这里选择的是轻量应用服务器,系统镜像和应用镜像不需要改变,保持默认值就行(WordPress, CentOS 7.3)。
这里需要设置root权限和密码
设置成功后通过本地terminal(MAC)或者cmd(Windows)来构建ssh:
ssh root@****
然后输入之前设置的root的权限密码(注意:这里的密码是不会有任何显示的)
若出现上图的情况,需要清理一下之前的key:
ssh-keygen -R XX.XX.XX.XX
然后再次用ssh连接,然后yes,到此我们进入到了阿里云的服务器。
3、配置java环境
首先下载java的jdk:
wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz
然后解压:
tar -zxvf openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz
移动位置并且配置java路径:
mv java-se-8u41-ri/ /usr/java8 echo 'export JAVA_HOME=/usr/java8' >> /etc/profile echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile source /etc/profile
检查是否安装成功:
java -version
若安装成功会出现如下结果:
4、进行Hadoop的安装
这个是清华的镜像源,国内的小伙伴下载比较快:
# 借助清华源下载Hadoop wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
按照惯例解压:
tar -zxvf hadoop-3.2.2.tar.gz -C /opt/ mv /opt/hadoop-3.2.2 /opt/hadoop
配置地址:
echo 'export HADOOP_HOME=/opt/hadoop/' >> /etc/profile echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile source /etc/profile
配置yarn和hadoop:
echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/yarn-env.sh echo "export JAVA_HOME=/usr/java8" >> /opt/hadoop/etc/hadoop/hadoop-env.sh
查看Hadoop 安装情况:
hadoop version
若出现下图情况,则说明安装成功。
5、利用vim来操作core-site 和 hdfs-site
输入以下命令:
vim /opt/hadoop/etc/hadoop/core-site.xml
进入vim环境,如下图示:
按下i(insert)修改
光标移动至configuration之间,复制如下的信息:
<property> <name>hadoop.tmp.dir</name> <value>file:/opt/hadoop/tmp</value> <description>location to store temporary files</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property>
然后按下esc,停止修改,然后打":wq"(实际无“”)退出vim修改。
同理,操作hdfs-site
输入命令行:
vim /opt/hadoop/etc/hadoop/hdfs-site.xml
移动光标,复制以下信息:
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/opt/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/opt/hadoop/tmp/dfs/data</value> </property>
配置master和slave连接,运行如下指令,并且一直回车,直至出现如下图:
ssh-keygen -t rsa
运行如下代码:
cd .ssh cat id_rsa.pub >> authorized_keys
启动Hadoop:
hadoop namenode -format start-dfs.sh start-yarn.sh
踩坑提醒:
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation
这里踩了一个小坑,出现如上面的错误提示,解决方案参考:
https://blog.csdn.net/ystyaoshengting/article/details/103026872
查看是否配置成功:
jps
配置成功图如下:
6、配置防火墙端口
接下来需要开启你在阿里云的防火墙端口,才可以在浏览器上访问,否则你怎么弄都是访问不到。
最后你就可以在浏览器输入XX.XX.XX.XX:9870 或者XX.XX.XX.XX:8088来在浏览器上访问你的Hadoop,效果图如下:
以上就是使用Hadoop3.x的伪分布式部署方法,利用轻量应用服务器部署云集群的全过程,希望对你有所帮助。
点击我要投稿,查看全新升级的轻量应用服务器征文活动,奖励提升,每月都可以投稿。