hadoop分布式快速搭建

简介: hadoop分布式快速搭建1.配置主节点与从节点的ssh互信;【其中在主从节点主机的/etc/hosts文件中需绑定主机名ip间的映射关系; 如,192.168.1.113 node0     192.

hadoop分布式快速搭建

1.配置主节点与从节点的ssh互信;
【其中在主从节点主机的/etc/hosts文件中需绑定主机名ip间的映射关系;

如,192.168.1.113 node0

    192.168.1.108 node1

    192.168.1.190 node2


2.配置各节点jdk环境;

3,修改${HADOOP_HOME}/conf/hadoop-env.xml,core-site.xml,hdfs-site.xml,mapred-site.xml;如下
修改core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file.-->
<configuration>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/root/app/hadoop/hadooptmp</value>
  </property>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://node0:9000</value>
  </property>
</configuration>

修改hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!--Put site-specific property overriders in this file. -->
<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>

修改mapred-site.xml
<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>node0:9001</value>
  </property>
</configuration>

上面是主节点配置,拷贝主节点hadoop主目录到从节点即可

4.在主节点格式化namenode文件系统;
hadoop namenode -format


启动hadoop即可;

状态查看

案例测试,

单词统计,

hadoop fs -ls

touch file01 file02

echo hello hadoop file01

echo hadoop hi

hadoop fs -put ./* input

切换到${HADOOP_HOME}下执行

hadoop jar hadoop-xample.jar wordcount input output

hadoop fs -ls output


注意点;
hadoop分布式系统2个重要的目录结构,一个是namenode上名字空间的存放,一个是datanode数据块存放,还有其他的文件存放,这些文件的存放都是基于hadoop.tmp.dir存储的.
namenode的名字空间存放位置
${hadoop.tmp.dir}/dfs/name
datanode数据块的存放位置
${hadoop.tmp.dir}/dfs/data
hadoop.tmp.dir目录可以不存在,hadoop系统会自动生成,

core-site.xml 文件fs.default.name设置namenode位于哪个机器上,
格式hdfs://node0:90000
mapred-site.xml文件mapred.job.tracker指定jobtracker位于那台机器上.

6大进程;
namenode,datanode,jobtracker,tasktracker,secondarynamenode,jps;

问题warning:$HADOOP_HOME is deprecated
解决,编辑/etc/profile
添加export HADOOP_HOME_WARN_SUPPRESS=TRUE


目录
相关文章
|
5月前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
43 2
|
5月前
|
分布式计算 资源调度 Hadoop
Hadoop分布式
基于Java的分布式计算平台,旨在处理海量数据。【2月更文挑战第19天】
39 2
|
分布式计算 资源调度 算法
手动搭建Hadoop分布式集群
手动搭建Hadoop分布式集群
111 0
|
存储 分布式计算 网络协议
Hadoop完全分布式部署
Hadoop完全分布式部署
|
存储 资源调度 分布式计算
Hadoop分布式集群搭建
Hadoop分布式集群搭建
210 0
Hadoop分布式集群搭建
|
分布式计算 资源调度 Hadoop
hadoop 全分布式部署
作者主页:https://www.couragesteak.com/
hadoop 全分布式部署
|
存储 分布式计算 资源调度
Hadoop 分布式集群安装
Hadoop 分布式集群安装
159 0
Hadoop 分布式集群安装
|
分布式计算 Java Hadoop
阿里云一键部署 Hadoop 分布式集群
Hadoop是一个能够让用户轻松架构和使用的开源分布式计算框架,以一种可靠、高效、可伸缩的方式进行数据处理。通过ROS资源编排服务可以在阿里云上一键部署Hadoop集群。
18279 0
|
存储 分布式计算 Hadoop
|
机器学习/深度学习 分布式计算 Hadoop
下一篇
无影云桌面