Hadoop完全分布式集群搭建

简介: Hadoop完全分布式集群搭建。本次通过阿里云结合其他两台云服务搭建,完全分布式的hadoop集群。以下总结以下操作步骤以及踩过的一些坑。

一. 配置信息
每个云服务器统一安装CentOS7.6,
Hadoop版本hadoop-3.1.3;
java版本(jdk):1.8.0_212;

二.搭建步骤

  1. 配置host
    通过:vim /ect/hostname ;配置主机信息;
    vim /etc/hosts 添加所有的服务器ip,注意区分本地服务器用私网ip,访问其他服务器使用公网ip;

namenode5.png

  1. 解压文件
    tar -zxvf xxxx -C /opt/xxxx
  2. 配置环境变量
    解压后,需要将hadoop和jdk添加到环境变量中
    在/etc/profile.d下新建一个脚本文件,添加如下指令
    #JAVA_HOME
    export JAVA_HOME=/opt/module/jdk1.8.0_212
    export PATH=$PATH:$JAVA_HOME/bin
    #HADOOP_HOME
    export HADOOP_HOME=/opt/module/hadoop-3.1.3
    export PATH=$PATH:$HADOOP_HOME/bin
    export PATH=$PATH:$HADOOP_HOME/sbin

让配置信息生效:source /etc/profile/
以上信息表示文件所在路径,以及使用java及hadoop时,一些指令;注意路径需要与自己解压的路径保存一致

通过:hadoop version和java -version查看是否安装完成,安装完成会跳出,如下信息:
阿里云1.png

  1. hadoop配置

    • 各大平台都可以找到详细的环境配置,这边仅仅列举使用到的步骤,具体配置可自行搜索。
    • 每台服务都安装上hadoop以及jdk后,就需要配置hadoop的master和slave

① ssh免密登入:~/.ssh文件下:ssh-keygen -t rsa。将公钥拷贝到其他服务下:ssh-copy-id 服务器名称
② 集群配置
注意:NameNode 和 SecondaryNameNode 不要安装在同一台服务器。ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上。
阿里云2.png

这里主要就是配置:

  • vim hadoop路径/etc/hadoop/core-site.xml;
  • vim hadoop路径/etc/hadoop/hdfs-site.xml;
  • vim hadoop路径/etc/hadoop/yarn-site.xml;
  • vim hadoop路径/etc/hadoop/mapred-site.xml;

以及在hadoop路径/etc/hadoop/workers下添加你的集群信息。配置好以后可以通过rsync将配置文件分法到各个服务器上;

③测试

  • 第一次启动,对集群格式化:(确保路径下没有data和logs,有的话rm -rf 删除)。输入
  hdfs namenode -format # 对集群格式化
  • 在master上启动hdfs:sbin/start-dfs.sh
  • 在配置了ResourceManager的节点启动:sbin/start-yarn.sh

启动后通过jps检查每台服务器是否已经开启NodeManager和datanode如图:
阿里云5.png

  • 启动以后我们可以通过对应的端口在流量器中直接访问,如果成功打开则说明我们的集群搭建成功了。

hdfs的端口一般时9870,YARN的ResourceManager的端口为8088,显示如下图:

阿里云3.png

阿里云4.png

三 问题记录

  1. 启动集群后,无法访问对应端口:
    首先,查看对应端口是否已经启动。在终端输入:netstat -tunpl,查看IP已经端口号是否存在。若都开启了,检查一下每台服务的防火墙是否已经关闭了:
sudo systemctl stop firewalld
sudo systemctl disable firewalld.service

若都没问题,检查集群配置信息是否有拼写错误,以及主机名称是否编写正确,或者尝试ip直接访问。

  1. 8088 端口连接不上
    vim /etc/hosts 注释如下代码:
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 slave1

四 总结

  • 在服务器配置初期,由于使用完全分步式,会遇到服务器防火墙或云盾将其他平台服务器IP访问的22端口屏蔽的情况。
  • 本人就因为ip被平台云顿拦截,ping可以通,但是ssh总是失败。经过几个小时的纠结,发现其他服务器的ip被阿里云的云盾拦截了。这时候首先将其他服务器的IP添加服务器的白名单中,具体操作如下:

选择右上角用户头像,选择“安全管控”
阿里云6.png

进入后,左侧选择白名单:IP白名单

阿里云7.png

点击右侧的添加按键,将其他平台服务器的ip添加:

阿里云8.png

阿里云9.png

添加完成后,就可以看到添加的ip。此时,通过其他服务器ssh访问本服务就不会有问题了。
阿里云10.png

  • 对于一些有shell开发经验的人来说,可以先在阿里云主机端新开一端口,通过其他服务器ssh切换,查看是否可以成功,如果成功,则说明是IP的端口被云盾拦截了。如果没有解决,可以联系人工客服协同解决,我就多次麻烦客服,
  • 本次云平台的使用,虽然只是简单的搭建了hadoop集群,但是还是学习到了很多服务器的使用操作,巩固了shell和linux的一些基本操作技能。
  • 希望阿里云可以越做越好,推出更多的学生或新老人优惠活动。
目录
相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
1月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
45 3
Hadoop集群配置https实战案例
|
8天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
1月前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
47 1
Hadoop集群常见报错汇总
|
1月前
|
存储 Kubernetes 数据安全/隐私保护
k8s对接ceph集群的分布式文件系统CephFS
文章介绍了如何在Kubernetes集群中使用CephFS作为持久化存储,包括通过secretFile和secretRef两种方式进行认证和配置。
32 5
|
1月前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
71 4
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
48 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
2月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
79 2
|
2月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
57 1
下一篇
无影云桌面