hadoop完全分布式安装配置

简介:

一、创建hadoop用户并配置ssh无密钥登录。

http://yntmdr.blog.51cto.com/3829621/1631908

二、安装jdk



三、解压hadoop压缩包

tar -xf hadoop-2.7.1.tar.gz

修改拥有者

chown -R hadoop:hadoop hadoop-2.7.1

四、添加hadoop环境变量

编辑/etc/profile文件追加


HADOOP_HOME=/usr/local/hadoop-2.7.1

PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_HOME PATH

保存并退出


五、使环境变量生效

source /etc/profile


执行 hadoop  version 查看是否配置成功




六、修改 hadoop-env.sh


export JAVA_HOME=/usr/java/jdk1.7.0_71



七、修改yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_71


八、修改slaves添加host:

hddn141

hddn142



九、修改配置文件 core-site.xml


<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://hdnn140:9000/</value>

            <final>true</final>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/tmp</value>

        </property>

</configuration>

八、修改配置文件 hdfs-site.xml

<configuration>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/dfs/data</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

        <property>

                <name>dfs.permissions</name>

                <value>false</value>

        </property>

</configuration>


dfs.replication配置了文件块的副本数,一般不大于从机的个数


九、修改配置文件 mapred-site.xml

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

                <final>true</final>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>hdnn140:10020</value>

                <final>true</final>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>hdnn140:19888</value>

                <final>true</final>

        </property>

</configuration>


这个是mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn

十、 编辑yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>hdnn140:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hdnn140:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hdnn140:8035</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>hdnn140:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hdnn140:8088</value>

</property>

</configuration>


十一、由于涉及到端口较多所以我们直接关闭防火墙

systemctl stop iptables


十二、将配置好的hadoop复制到其他节点

scp -r /usr/local/hadoop-2.7.1 root@hddn141:/usr/local

scp -r /usr/local/hadoop-2.7.1 root@hddn142:/usr/local


拷贝完成后,修改所有者

chown -R hadoop:hadoop hadoop-2.7.1



十三、对hdfs格式化,执行以下命令:

hdfs namenode -format


出现

Storage directory /tmp/hadoop-hadoop/dfs/name has been successfully formatted.


搞定!


重新格式化namenode时,需先删除各节点的tmp文件


十四、启动sbin目录下

start-all.sh


十五、执行jps查看java进程 

hdnn140服务器上5个进程:

Jps

16977 DataNode

29754 ResourceManager

17382 NodeManager

29447 NameNode

29620 SecondaryNameNode


hddn141服务器上2个进程:



Jps

hddn142服务器上2个进程:


Jps


十六、通过网址查看

http://192.168.152.140:8088/


wKiom1UspWLxsIK2AAMarBcIWrY978.jpg

完成!


说明:

1、hostname不要使用下划线。










本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1631956,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
分布式计算 Ubuntu Hadoop
百度搜索:蓝易云【Ubuntu搭建全分布式Hadoop】
请注意,以上只是概述,并不包含详细的步骤和指令。搭建全分布式Hadoop是一个复杂的过程,需要对Hadoop的架构和配置有深入的理解,并熟悉Linux系统管理。建议在搭建全分布式Hadoop之前,先学习相关知识并查阅官方文档和教程,以确保正确搭建和配置Hadoop集群。
27 0
|
13天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
6月前
|
分布式计算 Hadoop Java
hadoop完全分布式集群搭建(超详细)-大数据集群搭建
hadoop完全分布式集群搭建(超详细)-大数据集群搭建
567 1
|
1天前
|
存储 分布式计算 Hadoop
基于Hadoop分布式数据库HBase1.0部署及使用
基于Hadoop分布式数据库HBase1.0部署及使用
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop分布式
基于Java的分布式计算平台,旨在处理海量数据。【2月更文挑战第19天】
25 2
|
4月前
|
存储 分布式计算 负载均衡
干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识
干翻Hadoop系列文章【01】:Hadoop前瞻之分布式知识
|
4月前
|
分布式计算 并行计算 Hadoop
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
【云计算与大数据计算】分布式处理CPU多核、MPI并行计算、Hadoop、Spark的简介(超详细)
102 0
|
5月前
|
分布式计算 Hadoop Java
Hadoop分布式集群部署
Hadoop分布式集群部署
62 0
|
5月前
|
存储 分布式计算 资源调度
Hadoop HDFS(分布式文件系统)
Hadoop HDFS(分布式文件系统)
44 0
|
9月前
|
存储 分布式计算 资源调度
Centos7 Hadoop分布式集群安装
目前,hadoop已经演变为大数据计算的代名词,形成了一套完善的大数据计算的生态系统,所以针对hadoop也出现了很多版本
149 0

相关实验场景

更多