07 Hadoop集群搭建

简介: 07 Hadoop集群搭建

Hadoop集群 具体来说包含两个集群:HDFS集群YARN集群,两者逻辑上分离,但物理上常在一起。

  • HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode
  • YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager

那mapreduce是什么呢?它其实是一个应用程序开发包。

本集群搭建案例,以5节点为例进行搭建,角色分配如下:

部署图如下:

下面开始讲Hadoop的集群环境搭建:

1.服务器准备

本案例使用虚拟机服务器来搭建Hadoop集群,所用软件及版本:

  • Vmware 11.0
  • Centos 6.5 64bit
2.网络环境准备

采用NAT方式联网

网关地址:192.168.33.1

3个服务器节点IP地址:192.168.33.101、192.168.33.102、192.168.33.103

子网掩码:255.255.255.0

3.服务器系统设置

1.添加Hadoop用户

2.为Hadoop用户分配sudoer权限

3.同步时间

4.设置主机名

  • hdp-node-01
  • hdp-node-02
  • hdp-node-03

5.配置内网域名映射:

  • 192.168.33.101 hdp-node-01
  • 192.168.33.102 hdp-node-02
  • 192.168.33.103 hdp-node-03

6.配置ssh免密登陆

7.配置防火墙

4. jdk环境安装

1.上传jdk安装包

2.规划安装目录 /home/Hadoop/apps/jdk_1.7.65

3.解压安装包

4.配置环境变量 /etc/profile

5.Hadoop安装部署

1.上传Hadoop安装包

2.规划安装目录 /home/Hadoop/apps/Hadoop-2.6.1

3.解压安装包

4.修改配置文件$Hadoop_HOME/etc/Hadoop/

最简化配置如下:

vi Hadoop-env.sh

# The java implementation to use.
export JAVA_HOME=/home/Hadoop/apps/jdk1.7.0_51

vi core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp-node-01:9000</value>
</property>
<property>
<name>Hadoop.tmp.dir</name>
<value>/home/Hadoop/apps/Hadoop-2.6.1/tmp</value>
</property>
</configuration>

vi hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/Hadoop/data/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/Hadoop/data/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>hdp-node-01:50090</value>
</property>
</configuration>

vi mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vi yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>Hadoop01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

vi salves

hdp-node-01
hdp-node-02
hdp-node-03
6.启动集群

初始化HDFS

bin/Hadoop  namenode  -format

启动HDFS

sbin/start-dfs.sh

启动YARN

sbin/start-yarn.sh
7.测试

1.上传文件到HDFS

从本地上传一个文本文件到hdfs的/wordcount/input目录下。

[Hadoop@hdp-node-01 ~]$ Hadoop fs -mkdir -p /wordcount/input
[Hadoop@hdp-node-01 ~]$ Hadoop fs -put /home/Hadoop/somewords.txt  /wordcount/input

2.运行一个mapreduce程序

在Hadoop安装目录下,运行一个示例mr程序

cd $Hadoop_HOME/share/Hadoop/mapreduce/
Hadoop jar mapredcue-example-2.6.1.jar wordcount /wordcount/input  /wordcount/output


目录
相关文章
|
3天前
|
存储 分布式计算 资源调度
Hadoop【环境搭建 04】【hadoop-2.6.0-cdh5.15.2.tar.gz 基于ZooKeeper搭建高可用集群】(部分图片来源于网络)
【4月更文挑战第1天】Hadoop【环境搭建 04】【hadoop-2.6.0-cdh5.15.2.tar.gz 基于ZooKeeper搭建高可用集群】(部分图片来源于网络)
56 3
|
2天前
|
SQL 弹性计算 分布式计算
实时计算 Flink版产品使用合集之如果产品是基于ak的,可以提交sql任务到ecs自建hadoop集群吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
14 0
|
3天前
|
分布式计算 监控 Hadoop
Ganglia监控Hadoop与HBase集群
Ganglia监控Hadoop与HBase集群
|
3天前
|
存储 分布式计算 Hadoop
Hadoop集群搭建
Hadoop集群搭建
|
3天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
3天前
|
存储 分布式计算 Hadoop
Hadoop集群规模扩展
【4月更文挑战第14天】Hadoop集群扩展可通过添加更多节点、垂直扩展(增强单节点资源)和水平扩展(增加节点数量)来实现。关键点包括规划扩展策略、确保集群稳定性和优化配置。注意在扩展过程中要保证数据完整性,并根据需求调整以提升集群性能和效率。
23 1
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
63 9
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
37 4
|
3天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
3天前
|
分布式计算 资源调度 Hadoop
Hadoop【环境搭建 03】【hadoop-3.1.3 集群版】(附:集群启动&停止Shell脚本)
【4月更文挑战第1天】Hadoop【环境搭建 03】【hadoop-3.1.3 集群版】(附:集群启动&停止Shell脚本)
38 2

相关实验场景

更多