十一、Hadoop完全分布式的搭建详情

简介: 十一、Hadoop完全分布式的搭建详情

hadoop完全分布式安装与配置

   

 在Hadoop集群模式的安装与配置中,Hadoop集群架构如图所示。

30.png


准备:共三台虚拟机,分别为master、slave1、slave2,完成如下配置操作。


1、修改hosts文件、存储主机名和IP映射。



       为方便后续操作这里更改为root用户进行操作。


31.png


(1)第一台计算机执行命令“vim /etc/sysconfig/network”修改主机名,如图所示。


32.png


更改内容为:


33.png


(2)第二台计算机执行命令“vim /etc/sysconfig/network”修改主机名,如图所示。


34.png


更改内容为:


35.png


(3)第三台计算机执行命令“vim /etc/sysconfig/network”修改主机名如图所示。


36.png


更改内容为:


37.png


(4)在每台Linux主机上(master,slave1,slave2),通过“vim /etc/hosts”命令,修改为如下内容修改IP地址映射,编辑结束后,按“:wq”键,保存并退出,如图所示。


38.png


(5)测试集群中各个节点之间的互通性(这里使用“ping”命令进行测试),如图所示。


39.png


40.png


41.png


2、随后,在集群的各个节点上配置SSH免密登录,实现master节点无密码登录各个Slave节点。



(1)master生成密钥对


       SSH为Secure Shell的缩写,由IETF的网络小组所制定。SSH为建立在应用层基础上的安全协议,专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效地防止远程管理过程中的信息泄露问题。


       执行命令“ssh-keygen -t rsa”并且依次在系统等待输入时直接回车(一共4次回车)后,即可生成密钥对,如图所示。


42.png


进入生成的密钥存储路径/root/.ssh查看生成的密钥文件。


43.png


(2)分发公钥文件


       执行“ssh-copy-id [主机名]”命令,把本地的ssh公钥文件id_rsa.pub的内容分发到远程[主机名]指定主机对应目录下的authorized_keys文件中,如图所示。


44.png


45.png


46.png


(3)重复master配置操作


       在各Slave节点上,需要注意的是执行“ssh-copy-id [主机名]”命令时,需要更换[主机名]为“master”,“slave1”或“slave2”。


(4)免密登录测试


使用master节点登录各Slave节点的测试,如图所示。


47.png


48.png

使用“exit”命令登出,如图所示。


49.png


3、集群环境的配置


       在配置集群模式时,需要修改“/home/hadoop/etc/hadoop”目录中的配置文件,这里仅设置正常启动所必需的设置项,包括slaves、hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共7个文件,更多设置项可查看官方说明文档。


(1)在hadoop根目录下创建几个文件夹,如图所示。


50.png


(2)配置slaves文件,执行命令“vim  /home/hadoop/etc/hadoop/slaves”将master节点仅作为NameNode使用,将slaves文件中原来的localhost删除,并添加内容,如图所示。(注意文件内容不能留有其他空格)


51.png


更改为:


52.png


(3)配置jdk路径


配置hadoop-env.sh文件,如图所示。


53.png


配置yarn-env.sh文件,如图所示。


54.png


(4)配置文件


配置core-site.xml文件,如图所示。


55.png


配置hdfs-site.xml文件,如图所示。


56.png


 修改mapred-site.xml.template文件为mapred-site.xml如图所示:


57.png


 配置mapred-site.xml文件,如图所示。


58.png


 配置yarn-site.xml文件,如图所示。


59.png


(5)分发文件


       上述文件全部配置完成以后,需要把master节点上的/home/hadoop下的文件复制到各个Slave节点上,如图所示。


60.png


61.png


(6)格式化节点、启动、验证


       首次启动Hadoop集群时,需要在master节点执行节点的格式化操作,即执行命令“bin/hdfs namenode -format”,如图所示。


/62.png


        如果在返回的信息中看到‘Exiting with status 0’,则表示执行格式化成功。如图所示。


63.png


       接下来即可启动Hadoop,在主机master上执行命令“sbin/start-all.sh”,启动进程,如图所示。


64.png


        依次在各个节点上执行命令“jps”,查看各个节点的进程,如图所示,如果可以看到如下相关进程,就表示各个节点安装和配置集群环境正确。


65.png


66.png


67.png

(7)Linux浏览器测试


       测试HDFS,在虚拟机浏览器地址栏中输入“http://master:50070”,进入HDFS信息界面,表明HDFS配置准确,如图所示。


68.png


        测试YARN,在虚拟机浏览器地址栏中输入“http://master:8088”,打开Web控制台,可以查看集群状态,如果DataNode中没有配置yarn-site.xml,则在网页中无法看到节点信息;如果配置了yarn-site.xml,则在网页中将会看到节点配置信息,如图所示。


69.png


          注意:如果在windows的浏览器中测试,需要保证该windows计算机可以正常访问到虚拟机中的相关计算机,并且需要修改windows计算机的hosts文件,实现master主机名与相应IP地址的映射,或者将“http://master:8088”中master修改为对应的IP地址进行测试。


至此,说明Hadoop完全分布式模式的安装与配置成功完成。


相关文章
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
497 7
|
存储 分布式计算 Hadoop
Hadoop是一个强大的分布式系统基础架构
【6月更文挑战第17天】Hadoop是一个强大的分布式系统基础架构
407 53
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
249 2
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
312 1
|
存储 数据采集 分布式计算
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
Hadoop-17 Flume 介绍与环境配置 实机云服务器测试 分布式日志信息收集 海量数据 实时采集引擎 Source Channel Sink 串行复制负载均衡
311 1
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
242 1
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
383 1
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
285 1
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
1091 2
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
451 1

相关实验场景

更多