Hadoop伪分布式模式部署-阿里云开发者社区

开发者社区> 看山灬> 正文

Hadoop伪分布式模式部署

简介: 这里的准备工作可以查看Hadoop单机模式部署准备工作。
+关注继续查看

Hadoop的安装有三种运行模式:


单机模式(Local (Standalone) Mode):Hadoop的默认模式,0配置。Hadoop运行在一个Java进程中,使用本地文件系统,不使用HDFS,一般用于开发调试MapReduce程序的应用逻辑。

伪分布式模式(Pseudo-Distributed Mode):需简单配置,相当于只有一个节点的集群,Hadoop的所有守护进程运行在同一台机器上。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。

完全分布式模式(Fully-Distributed Mode):根据需要进行配置。多节点,一般用于生产环境,可认为是由伪分布式模式的一个节点变为多个节点。

准备工作

这里的准备工作可以查看Hadoop单机模式部署准备工作。


总结一下就是:


Linux系统环境

JDK安装及其环境变量、ssh及ssh的免密码登录

Hadoop安装包

环境变量的配置

环境搭建

修改core-site.xml

修改$HADOOP_HOME/etc/hadoop/core-site.xml文件。在默认情况下,这个文件为空,没有任何配置,这里需要指定NameNode的ip和端口(默认端口是8020)。


<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.134:9000</value>
    </property>
</configuration>

192.168.1.134是我的本机地址,可以写localhost或127.0.0.1。但是如果需要Eclipse远程调用Hadoop的时候,需要些具体的ip地址,否则调不通。


修改hdfs-site.xml

HDFS是分布式文件系统,为了安全性考虑,会将上传至HDFS的文件的每个分块拷贝到N个节点上,即复制N次(这里的N成为复制因子)。这里将复制因子改为1。


<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

启动最小Hadoop伪分布式模式

经过上面的最小配置后,Hadoop已经可以启动伪分布式模式了。


格式化文件系统

第一次运行Hadoop的时候需要格式化其文件系统:


$ bin/hdfs namenode -format

如果成功,会打印:


。。。
14/10/14 19:09:05 INFO common.Storage: Storage directory /tmp/hadoop-lxh/dfs/name has been successfully formatted.
。。。

启动NameNode守护进程和DataNode守护进程

直接通过Hadoop提供的脚本start-dfs.sh即可:


$ sbin/start-dfs.sh

启动日志保存在$HADOOPLOGDIR目录中(默认是$HADOOP_HOME/logs)。


查看启动的进程

可以通过jps查看已经启动的进程:


31536 SecondaryNameNode
31381 DataNode
31254 NameNode
31643 Jps

说明DataNode、NameNode、SecondaryNameNode已经启动成功。


查看NameNode的web接口

通过默认的NameNode的web接口http://localhost:50070/,可以查看NameNode收集的信息,相当于关于Hadoop提供的一个信息查询系统。


Hello World

执行官网提供的验证程序。


$ hdfs dfs -mkdir /input
$ hdfs dfs -put $HADOOP_HOME/etc/hadoop/* /input
$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep /input /output 'dfs[a-z.]+'
$ hdfs dfs -cat /output/*

最后一条命令是显示最后的执行结果:


6   dfs.audit.logger
4   dfs.class
3   dfs.server.namenode.
2   dfs.period
2   dfs.audit.log.maxfilesize
2   dfs.audit.log.maxbackupindex
1   dfsmetrics.log
1   dfsadmin
1   dfs.servers
1   dfs.replication
1   dfs.file

停止进程

伪分布式模式中的第一个Hello World执行成功后,可以关闭进程了。


$ stop-dfs.sh

配置YARN

通过配置一些参数,并启动ResourceManager守护进程和NodeManager守护进程,可以在伪分布式模式中,在YARN上运行MapReduce任务。


上面的最小配置不变。


修改mapred-site.xml

在默认的Hadoop安装包中,没有mapred-site.xml文件,可以复制mapred-site.xml.template,并修改,指定在YARN中运行MapReduce任务:

<configuration>
    <property>    
        <name>mapreduce.framework.name</name>        
        <value>yarn</value>            
    </property>
</configuration>

修改yarn-site.xml

指明需要向MapReduce应用提供的Shuffle服务。


<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

运行

可以通过start-yarn.sh启动ResourceManager守护进程和NodeManager守护进程,通过stop-yarn.sh停止。


补充配置

Hadoop默认将HDFS文件系统写在/tmp/hadoop-中,因为系统重启会清理/tmp目录,所以需要保证重启系统不丢失数据,需要修改默认数据保存位置。


core-site.xml

<property>
    <name>hadoop.tmp.dir</name>
    <value>file:/home/lxh/hadoop/tmp/hadoop</value>
</property>
hdfs-site.xml
<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/lxh/hadoop/hdfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/lxh/hadoop/hdfs/data</value>
</property>

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
排名前 16 的 Java 工具类,哪个你没用过?
在Java中,实用程序类是定义一组执行通用功能的方法的类。 这篇文章展示了最常用的Java实用工具类及其最常用的方法。类列表及其方法列表均按受欢迎程度排序。数据基于从GitHub随机选择的50,000个开源Java项目。 希望您可以通过浏览列表来了解
8 0
PO,VO,DAO,BO,POJO 之间的区别你懂吗?
value object:值对象。 通常用于业务层之间的数据传递,由new创建,由GC回收。
6 0
方法的定义与使用(方法重载)|学习笔记
快速学习 方法的定义与使用(方法重载)
8 0
10S
冬季实战营第一期:从零到一上手玩转云服务器的学习报告
训练营日期:2022年1月17日 - 2022年1月23日,通过前五日从零学习云服务器,还能领取限量版盲盒等奖品
8 0
解决Java- 错误: 找不到或无法加载主类 HelloWorld.java
针对初学者使用javac,java等命令编译class文件时出现的经典问题,提供解决思路和方法。
14 0
冬季实战营第一期:从零到一上手玩转云服务器学习报告
1月17-21日,我参加冬季实战营第一期:从零到一上手玩转云服务器学习,从创建一台ECS实例开始,学习了ECS云服务器新手上路、搭建LAMP环境(Linux、Apache、MySQL和PHP)、通过ECS服务器部署MySQL数据库等,掌握了ECS实例、部署应用等知识。
13 0
ECS服务器部署MySQL数据库学习笔记
通过冬季实战营第一期学习在ECS服务器部署MySQL数据库。
12 0
C# 同步 异步 回调 状态机 async await Demo
C# 同步 异步 回调 状态机 async await Demo 我们项目的客户端和服务端通信用的是WCF,我就想,能不能用异步的方式调用WCF服务呢?或者说能不能用async await的方式调用WCF服务呢?
5 0
“冬季实战营第一期”之从零到一上手玩转云服务器——学习报告
动手实战、专家带练。由浅及深,逐渐提升动手实操能力。
24 0
+关注
看山灬
专注后端开发、架构相关知识分享,个人网站 https://howardliu.cn/。
136
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载