搭建云服务器Hadoop集群/伪分布

简介: Linux 系统搭建云服务器 Hadoop 集群 分为六大步骤 新增用户 下载安装 配置 SSH 免密登录 修改配置 初始化、启动与停止 一、 新增用户 hadoop useradd -d /home/hadoop -m hadoop usermod -a -G root hadoop passwd hadoop 二、 下载安装 Hadoop-3.

Linux 系统搭建云服务器 Hadoop 集群

分为六大步骤

  1. 新增用户
  2. 下载安装
  3. 配置 SSH 免密登录
  4. 修改配置
  5. 初始化、启动与停止

一、 新增用户 hadoop

useradd -d /home/hadoop -m hadoop
usermod -a -G root hadoop
passwd hadoop

二、 下载安装

(所有云服务器都要执行)

JDK8

sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel -y

Hadoop-3.0.1

cd ~
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz
mv hadoop-3.0.1.tar.gz /home/hadoop/
cd /home/hadoop/
tar -xzvf hadoop-3.0.1.tar.gz
chown hadoop hadoop-3.0.1 -R 

三、 配置免密登录

编辑 /etc/hosts

(下面的 IPn 表示如 192.168.1.1 格式的云服务器外网 IP 地址。注意,如果是指向本机的 IP,请用内网 IP 地址代替)

IP1 master
IP2 slave1
IP3 slave2

切换到 hadoop 用户生成 id_rsa.pub

su hadoop
cd ~
ssh-keygen -t rsa
cd ~/.ssh/
cat id_rsa.pub >> authorized_keys
chmod 700 /home/hadoop/.ssh

    chmod 644 /home/hadoop/.ssh/authorized_keys

---以上命令所有云服务器都要运行---

交换共享 id_rsa.pub 的内容

(如果搭建伪分布模式,则可以略过交换共享这一步,直接进行 ssh 的测试)

master 云服务器操作

scp /home/hadoop/.ssh/authorized_keys slave2:/home/hadoop/.ssh/

slave1 云服务器操作

scp /home/hadoop/.ssh/authorized_keys slave3:/home/hadoop/.ssh/

slave2 云服务器操作

scp /home/hadoop/.ssh/authorized_keys master:/home/hadoop/.ssh/
  • 这一步的最终目的是让所有云服务器的 authorized_keys 内容都包含各自的 id_rsa.pub 信息,且内容相同。

测试结果

master

ssh slave1
quit
ssh slave2
quit

slave1

ssh master
quit
ssh slave2
quit

slave2

ssh master
quit
ssh slave1
quit
  • 需要确保所有云服务器能够相互 ssh 通过。
  • 第一次进行 ssh 需要密码登录。输完密码之后,选择 yes 保存记录。之后就不再需要输入密码登录了。
  • 如果出现异常情况,可重启服务再尝试:sudo service sshd service

四、 修改配置文件

/etc/profile 配置环境变量

export JAVA_HOME=/usr/lib/jvm/jre
export HADOOP_HOME=/home/hadoop/hadoop-3.0.1/
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib:$JAVA_HOME/bin

使环境变量生效

source /etc/profile

/home/hadoop/hadoop-3.0.1/etc/hadoop/

(更详细的配置参见 官方文档

cd ~/hadoop-3.0.1/etc/hadoop
ls
  • 发现很多配置文件,其中

(1)core-site.xml 添加

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>
  • 设置 HDFS NameNode 的 URI 为 IP1:9000
  • 设定了 I/O 文件缓存容量

(2)hdfs-size.xml 添加

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/hadoop-3.0.1/hdfs/name</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave1:9001</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/hadoop-3.0.1/hdfs/data</value>
    </property>
</configuration>
  • 设定 Namenode 信息存储目录
  • 设置副本数为 2
  • 设置 Secondary NameNode URI 为 IP2:9001 (slave1 <=> IP2)
  • 开启 WebHDFS 模块
  • 设定 DataNode 的目录路径

(3)yarn-site.xml 添加

<configuration>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>

    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
    </property>

    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
  • 设定客户端提交任务的 URI 为 IP1:8032
  • 设定主程序资源获取的 URI 为 IP1:8032
  • 设定 NodeManager URI 为 IP1:8033
  • 设定 ResourceManager 的 Web 界面 URI 为 IP1::8088
  • 以上4点配置可不设定,本身有默认值
  • 设定每个任务所需最小内存为 512MB
  • 设定每个任务所需最大内存为 2048MB
  • 设定 NodeManger 可使用的内存为 1024MB
  • 设定如果任务超过内存限制,则自动杀死(kill)该任务。

(4)mapred-site.xml 添加

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>
  • 任务历史默认端口也是 10020
  • 任务历史 Web 界面端口也是 19888

(5)编辑 hadoop-env.sh

约第 54 行的位置修改为

export JAVA_HOME=${JAVA_HOME}

(6)在同一目录下创建文件 masters 和 workers

masters 内容为
IP1
workers 内容为
IP2
IP3

五、 初始化

NameNode 格式化

su hadoop
hdfs namenode -format

启动

start-dfs.sh
start-yarn.sh

或者

start-all.sh

任务历史进程

mr-jobhistory-daemon.sh start historyserver

mr-jobhistory-daemon.sh stopt historyserver

七、其他

  1. 注意不要每次启动都格式化,导致 NameNode 与 DataNode 的 clusterID 不一致而启动失败;
  2. 如果一定要格式化,需要删除配置文件中指定在运行时生成的文件夹,如 hdfs/namehdfs/datatmp(在 Hadoop 安装目录下)。
  3. 可查看 hadoop 安装目录下的 logs 日志文件夹排错
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
1月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
46 3
Hadoop集群配置https实战案例
|
11天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
1月前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
54 1
Hadoop集群常见报错汇总
|
1月前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
78 4
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
51 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
2月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
82 2
|
2月前
|
负载均衡 算法 应用服务中间件
负载均衡技术在Web服务器集群中的应用
【8月更文第28天】随着互联网的发展和用户对Web服务需求的增长,单台服务器很难满足大规模访问的需求。为了提高系统的稳定性和扩展性,通常会采用Web服务器集群的方式。在这种架构中,负载均衡器扮演着至关重要的角色,它能够合理地分配客户端请求到不同的后端服务器上,从而实现资源的最优利用。
75 2
|
2月前
|
存储 分布式计算 负载均衡
下一篇
无影云桌面