hadoop完全分布式安装配置

简介:

一、创建hadoop用户并配置ssh无密钥登录。

http://yntmdr.blog.51cto.com/3829621/1631908

二、安装jdk



三、解压hadoop压缩包

tar -xf hadoop-2.7.1.tar.gz

修改拥有者

chown -R hadoop:hadoop hadoop-2.7.1

四、添加hadoop环境变量

编辑/etc/profile文件追加


HADOOP_HOME=/usr/local/hadoop-2.7.1

PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_HOME PATH

保存并退出


五、使环境变量生效

source /etc/profile


执行 hadoop  version 查看是否配置成功




六、修改 hadoop-env.sh


export JAVA_HOME=/usr/java/jdk1.7.0_71



七、修改yarn-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_71


八、修改slaves添加host:

hddn141

hddn142



九、修改配置文件 core-site.xml


<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://hdnn140:9000/</value>

            <final>true</final>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/tmp</value>

        </property>

</configuration>

八、修改配置文件 hdfs-site.xml

<configuration>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/usr/local/hadoop-2.6.0/dfs/data</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

        <property>

                <name>dfs.permissions</name>

                <value>false</value>

        </property>

</configuration>


dfs.replication配置了文件块的副本数,一般不大于从机的个数


九、修改配置文件 mapred-site.xml

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

                <final>true</final>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>hdnn140:10020</value>

                <final>true</final>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>hdnn140:19888</value>

                <final>true</final>

        </property>

</configuration>


这个是mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn

十、 编辑yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>hdnn140:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>hdnn140:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>hdnn140:8035</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>hdnn140:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>hdnn140:8088</value>

</property>

</configuration>


十一、由于涉及到端口较多所以我们直接关闭防火墙

systemctl stop iptables


十二、将配置好的hadoop复制到其他节点

scp -r /usr/local/hadoop-2.7.1 root@hddn141:/usr/local

scp -r /usr/local/hadoop-2.7.1 root@hddn142:/usr/local


拷贝完成后,修改所有者

chown -R hadoop:hadoop hadoop-2.7.1



十三、对hdfs格式化,执行以下命令:

hdfs namenode -format


出现

Storage directory /tmp/hadoop-hadoop/dfs/name has been successfully formatted.


搞定!


重新格式化namenode时,需先删除各节点的tmp文件


十四、启动sbin目录下

start-all.sh


十五、执行jps查看java进程 

hdnn140服务器上5个进程:

Jps

16977 DataNode

29754 ResourceManager

17382 NodeManager

29447 NameNode

29620 SecondaryNameNode


hddn141服务器上2个进程:



Jps

hddn142服务器上2个进程:


Jps


十六、通过网址查看

http://192.168.152.140:8088/


wKiom1UspWLxsIK2AAMarBcIWrY978.jpg

完成!


说明:

1、hostname不要使用下划线。










本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1631956,如需转载请自行联系原作者
目录
相关文章
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
60 3
|
1月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
41 2
|
1月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
45 1
|
1月前
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
42 1
|
1月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
28 1
|
1月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
40 1
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
46 1
|
1月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
46 0
|
3月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
179 2
|
3月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
89 1