文档备案控制台

开发者社区开发与运维文章正文

十一、Hadoop完全分布式的搭建详情

2022-05-27 303

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 十一、Hadoop完全分布式的搭建详情

hadoop完全分布式安装与配置

在Hadoop集群模式的安装与配置中，Hadoop集群架构如图所示。

准备：共三台虚拟机，分别为master、slave1、slave2，完成如下配置操作。

1、修改hosts文件、存储主机名和IP映射。

为方便后续操作这里更改为root用户进行操作。

（1）第一台计算机执行命令“vim /etc/sysconfig/network”修改主机名，如图所示。

更改内容为：

（2）第二台计算机执行命令“vim /etc/sysconfig/network”修改主机名，如图所示。

更改内容为：

（3）第三台计算机执行命令“vim /etc/sysconfig/network”修改主机名如图所示。

更改内容为：

（4）在每台Linux主机上（master，slave1，slave2），通过“vim /etc/hosts”命令，修改为如下内容修改IP地址映射，编辑结束后，按“:wq”键，保存并退出，如图所示。

（5）测试集群中各个节点之间的互通性（这里使用“ping”命令进行测试），如图所示。

2、随后，在集群的各个节点上配置SSH免密登录，实现master节点无密码登录各个Slave节点。

（1）master生成密钥对

SSH为Secure Shell的缩写，由IETF的网络小组所制定。SSH为建立在应用层基础上的安全协议，专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效地防止远程管理过程中的信息泄露问题。

执行命令“ssh-keygen -t rsa”并且依次在系统等待输入时直接回车（一共4次回车）后,即可生成密钥对，如图所示。

进入生成的密钥存储路径/root/.ssh查看生成的密钥文件。

（2）分发公钥文件

执行“ssh-copy-id [主机名]”命令，把本地的ssh公钥文件id_rsa.pub的内容分发到远程[主机名]指定主机对应目录下的authorized_keys文件中，如图所示。

（3）重复master配置操作

在各Slave节点上，需要注意的是执行“ssh-copy-id [主机名]”命令时，需要更换[主机名]为“master”，“slave1”或“slave2”。

（4）免密登录测试

使用master节点登录各Slave节点的测试，如图所示。

使用“exit”命令登出，如图所示。

3、集群环境的配置

在配置集群模式时，需要修改“/home/hadoop/etc/hadoop”目录中的配置文件，这里仅设置正常启动所必需的设置项，包括slaves、hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共7个文件，更多设置项可查看官方说明文档。

（1）在hadoop根目录下创建几个文件夹，如图所示。

（2）配置slaves文件，执行命令“vim /home/hadoop/etc/hadoop/slaves”将master节点仅作为NameNode使用，将slaves文件中原来的localhost删除，并添加内容，如图所示。(注意文件内容不能留有其他空格)

更改为：

（3）配置jdk路径

配置hadoop-env.sh文件，如图所示。

配置yarn-env.sh文件，如图所示。

（4）配置文件

配置core-site.xml文件，如图所示。

配置hdfs-site.xml文件，如图所示。

修改mapred-site.xml.template文件为mapred-site.xml如图所示：

配置mapred-site.xml文件，如图所示。

配置yarn-site.xml文件，如图所示。

（5）分发文件

上述文件全部配置完成以后，需要把master节点上的/home/hadoop下的文件复制到各个Slave节点上，如图所示。

（6）格式化节点、启动、验证

首次启动Hadoop集群时，需要在master节点执行节点的格式化操作，即执行命令“bin/hdfs namenode -format”，如图所示。

/

如果在返回的信息中看到‘Exiting with status 0’，则表示执行格式化成功。如图所示。

接下来即可启动Hadoop，在主机master上执行命令“sbin/start-all.sh”，启动进程，如图所示。

依次在各个节点上执行命令“jps”，查看各个节点的进程，如图所示，如果可以看到如下相关进程，就表示各个节点安装和配置集群环境正确。

（7）Linux浏览器测试

测试HDFS，在虚拟机浏览器地址栏中输入“http://master:50070”，进入HDFS信息界面，表明HDFS配置准确，如图所示。

测试YARN，在虚拟机浏览器地址栏中输入“http://master:8088”，打开Web控制台，可以查看集群状态，如果DataNode中没有配置yarn-site.xml，则在网页中无法看到节点信息；如果配置了yarn-site.xml，则在网页中将会看到节点配置信息，如图所示。

注意：如果在windows的浏览器中测试，需要保证该windows计算机可以正常访问到虚拟机中的相关计算机，并且需要修改windows计算机的hosts文件，实现master主机名与相应IP地址的映射，或者将“http://master:8088”中master修改为对应的IP地址进行测试。

至此，说明Hadoop完全分布式模式的安装与配置成功完成。

文章标签：

云虚拟主机

Java

开发工具

分布式计算

Linux

Windows

网络安全

数据安全/隐私保护

Hadoop

安全

存储

关键词：

hadoop分布式

hadoop完全分布式

分布式详情

hadoop搭建

hadoop详情

托马斯-酷涛

目录

相关文章

别惹CC

|

存储分布式计算 Hadoop

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

本文介绍了如何借鉴Hadoop的设计思想，使用Java实现其核心功能MapReduce，解决海量数据处理问题。通过类比图书馆管理系统，详细解释了Hadoop的两大组件：HDFS（分布式文件系统）和MapReduce（分布式计算模型）。具体实现了单词统计任务，并扩展支持CSV和JSON格式的数据解析。为了提升性能，引入了Combiner减少中间数据传输，以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性，鼓励Java开发者学习Hadoop以拓展技术边界。

别惹CC

497 7 7

vohelon

|

存储分布式计算 Hadoop

Hadoop是一个强大的分布式系统基础架构

【6月更文挑战第17天】Hadoop是一个强大的分布式系统基础架构

vohelon

407 53 53

武子康

|

分布式计算 NoSQL Java

Hadoop-32 ZooKeeper 分布式锁问题分布式锁Java实现附带案例和实现思路代码

Hadoop-32 ZooKeeper 分布式锁问题分布式锁Java实现附带案例和实现思路代码

武子康

249 2 2

武子康

|

分布式计算 Hadoop

Hadoop-27 ZooKeeper集群集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置分布式协调框架 Leader Follower Observer

Hadoop-27 ZooKeeper集群集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置分布式协调框架 Leader Follower Observer

武子康

312 1 2

武子康

|

存储数据采集分布式计算

Hadoop-17 Flume 介绍与环境配置实机云服务器测试分布式日志信息收集海量数据实时采集引擎 Source Channel Sink 串行复制负载均衡

Hadoop-17 Flume 介绍与环境配置实机云服务器测试分布式日志信息收集海量数据实时采集引擎 Source Channel Sink 串行复制负载均衡

武子康

311 1 1

武子康

|

分布式计算 Hadoop 网络安全

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-08-HDFS集群基础知识命令行上机实操 hadoop fs 分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

242 1 1

武子康

|

存储机器学习/深度学习缓存

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

Hadoop-07-HDFS集群基础知识分布式文件系统读写原理读流程与写流程基本语法上传下载拷贝移动文件

武子康

383 1 1

武子康

|

分布式计算资源调度 Hadoop

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

武子康

285 1 1

蓝易云

|

存储分布式计算算法

探索Hadoop的三种运行模式：单机模式、伪分布式模式和完全分布式模式

在配置Hadoop集群之前，了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况，选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段，单机模式和伪分布式模式能为用户提供便利和成本效益。进而，当用户要处理大规模数据集时，完全分布式模式将是理想的选择。

蓝易云

1091 2 2

土木林森

|

存储分布式计算 Hadoop

【揭秘Hadoop背后的秘密！】HDFS读写流程大曝光：从理论到实践，带你深入了解Hadoop分布式文件系统！

【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件，专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构，前者负责元数据管理，后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取，有助于理解HDFS的工作原理及其在大数据处理中的应用价值。

土木林森

451 1 1

热门文章

最新文章

大型分布式存储方案MinIO介绍，看完你就懂了！

Sentinel快速入门：这可能是目前最好的分布式系统限流降级框架

用redis构建分布式锁

分布式消息系统Jafka入门指南

sql server中分布式查询随笔

带你读《存储漫谈Ceph原理与实践》第一章分布式存储概述1.2各主流分布式方案对比（一）

[鸿篇巨制]蚂蚁金融级分布式架构SOFAStack编年史

Dremio: 将 Minio 配置为分布式存储

多线程+Webservice分布式编程时需要注意的COM问题

WCF分布式安全开发实践(1):传输安全模式之匿名客户端:Transport_None_WSHttpBinding

Ubuntu22.04下搭建Hadoop3.3.6+Hbase2.5.6+Phoenix5.1.3开发环境的指南

CentOS中构建高可用Hadoop 3集群

“Hadoop整不明白，数据分析就白搭？”——教你用Hadoop撸清大数据处理那点事

Hadoop生态系统：从小白到老司机的入门指南

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Dataphin功能Tips系列（41）-Hadoop集群管理

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

从Excel到Hadoop：数据规模的进化之路

MPP 架构与 Hadoop 架构技术选型指南

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

相关课程

更多

基于Zookeeper、Dubbo构建互联网分布式基础架构

大数据Hadoop快速入门

分布式文件存储系统技术及实现

Hadoop快速入门

Hadoop企业优化及扩展案例

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

PHP：将本地文件上传到阿里云OSS存储