Hadoop 2.x 集群环境搭建

简介: 基础环境设置: 1.配置/etc/sysconfig/network-scripts/ifcfg-ens33 绑定ip 2.配置主机名ip解析,编辑 /etc/hosts 3.修改主机名,编辑/etc/sysconfig/network ,添加一行HOSTNAME=hostname 4.

======================================================
基础环境设置,以CentOS7为例:

1.配置/etc/sysconfig/network-scripts/ifcfg-ens33 绑定ip
2.配置主机名ip解析,编辑 /etc/hosts
3.修改主机名,编辑/etc/sysconfig/network ,添加一行

HOSTNAME=hostname

4.关闭iptables,selinux,firewalld
5.安装jdk,配置$JAVA_HOME
6.解压hadoop2.x 至/opt/app下,配置$HADOOP_HOME
7.所有主机之间设置ssh免验证登陆,包括本机自己ssh也要配置 (3台机器都有同一个用户,beifeng)

========================================================
hadoop 2.x 分布式部署方案

HOSTNAME IPADDR HDFS YARN MAPREDUCE

hadoop-master 192.168.1.129 NameNode,DataNode NodeManager Job_History_server
hadoop-slave1 192.168.1.130 DataNode ResourceManager,NodeManager
hadoop-slave2 192.168.1.131 SecondaryNameNode,DataNode NodeManager

==========================================================
hadoop 2.x 各守护进程相关配置文件

hdfs:

hadoop-env.sh   -->   配置$JAVA_HOME
core-site.xml   -->   配置NameNode节点(fs.defaultFS)
                      配置Hadoop的临时目录(tmp.dir)
hdfs-site.xml    -->      配置SecondaryNameNode(dfs.namenode.secondary.http-address)
slaves            -->      配置DataNode节点的ip/hostname

yarn:

yarn-env.sh     -->   配置$JAVA_HOME
yarn-site.xml   -->      配置ResourceManager节点
                      配置日志聚集(yarn.log-aggregetion-enable)
                      配置MapReduce的shuffle(yarn.nodemanager.aux-services----mapreduce_shuffle )
slaves            -->      配置NodeManager节点的ip/hostname

mapreduce:

mapred-site.xml -->   配置job history
                      配置在yarn上运行mapreduce
                     

===============================================================
在hadoop-master节点配置hdfs、yarn及mapreduce

1.配置hdfs
(一般配置好javahome不用再配置hadoop-env.sh)
a.$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-master:8020</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>
</property>

</configuration>

b.$HADOOP_HOME/etc/hadoop/hdfs-site.xml

不需要配置分片


dfs.namenode.secondary.http-address
http://hadoop-slave2:50090

c.$HADOOP_HOME/etc/hadoop/slaves

同时配置了NodeManager的节点地址

hadoop-master
hadoop-slave1
hadoop-slave2

2.配置yarn

a.yarn-site.xml


<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-slave1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>


<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>

3.配置MapReduce

a.mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>


<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop-master:10020</value>
</property>


<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop-master:19888</value>
</property>

======================================================================

拷贝hadoop到hadoop-slave1,slave2

scp -r $HADOOP_HOME hadoop-slave1:/opt/app
scp -r $HADOOP_HOME hadoop-slave2:/opt/app

========================================================================
启动hadoop 集群

1.在hadoop-master上首次初始格式化namenode节点

hdfs namenode -format

2.启动hdfs集群

start-dfs.sh

3.启动yarn集群

start-yarn.sh

4.启动job-history server

mr-jobhistory-daemon.sh start historyserver

5.各节点查看运行状态

jps

===================================================================

END

目录
相关文章
|
22天前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
103 6
|
23天前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
51 4
|
23天前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
27 3
|
23天前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
50 3
|
23天前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
37 3
|
23天前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
42 3
|
23天前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
76 3
|
23天前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
36 3
|
23天前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
38 2
|
23天前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
47 2