大数据平台搭建（容器环境）——Hadoop-阿里云开发者社区

大数据平台搭建（容器环境）——Hadoop

2023-07-12 1030 发布于甘肃

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： Hadoop3.x部署

Hadoop3.X 完成分布式安装部署

需要三台虚拟机

所有相关安装包在Master节点的/opt/software目录下

解压到 /opt/module目录下

命令中要求使用绝对路径

一、 JDK安装

在master操作

1、解压jdk

tar -zxvf /opt/software/jdk-8u212-linux-x64.tar.gz -C /opt/module/

        
          
        
        
        
          
          AI 代码解读

2、修改配置文件

修改 etc下的profile文件：vi /etv/profile

添加配置文件(里面原本的内容不可以删除，在最后一行按 o 输入，修改完成先按 Esc 再输入 :wq （ :wq : 退出并保存）)：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

        
          
        
        
        
          
          AI 代码解读

使文件生效：source /etc/profile ，使用 java -version命令验证

3、免密登录

修改/etc/hosts 文件(三台虚拟机都需要)：vi /etc/hosts ，将slave1和slave2的ip添加到里面（查看IP的命令：ip addr）:

在master上输入:

ssh-keygen -t rsa 然后连续按下三次回车然后输入命令(若遇到需要输入yes或者no 输入yes)
ssh-copy-id master 按下回车后输入master所对应的虚拟机密码
ssh-copy-id slave1 按下回车后输入slave1所对应的虚拟机密码
ssh-copy-id slave2 按下回车后输入slave2所对应的虚拟机密码

验证方式：输入 ssh slave1 不需要输入密码即可

二、hadoop集群环境搭建

将hadoop解压到/opt/module下

tar -zxvf /opt/software/hadoop-3.1.3.tar.gz -C /opt/module/

        
          
        
        
        
          
          AI 代码解读

修改配置文件

修改文件位于：/opt/module/hadoop-3.1.3/etc/hadoop

可以直接：cd /opt/module/hadoop-3.1.3/etc/hadoop

需要修改的配置文件有5个：

1，core-site.xml（核心配置文件）

2，hdfs-site.xml（HDFS配置文件）

3，mapred-site.xml（MapReduce配置文件）

4，yarn-site.xml（YARN配置文件）

5，hadoop-env.sh

6，yarn-env.sh

7，workers （该文件中添加的内容结尾不允许有空格，文件中不允许有空行）

1、配置文件

1，core-site.xml（核心配置文件）

vi core-site.xml

        
          
        
        
        
          
          AI 代码解读

<property>
        <!-- 指定NameNode的地址 -->
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
</property>
<property>
        <!-- 指定hadoop数据的存储目录 -->
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
</property>
<property>
        <!-- 配置HDFS网页登录使用的静态用户为root -->
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
</property>

        
          
        
        
        
          
          AI 代码解读

2，hdfs-site.xml（HDFS配置文件）

vi hdfs-site.xml

        
          
        
        
        
          
          AI 代码解读

    <property>
        <name>dfs.namenode.http-address</name>
        <value>master:9870</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave2:9868</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

        
          
        
        
        
          
          AI 代码解读

3，mapred-site.xml

vi mapred-site.xml

        
          
        
        
        
          
          AI 代码解读

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

        
          
        
        
        
          
          AI 代码解读

4，yarn-site.xml

vi yarn-site.xml（YARN配置文件）

        
          
        
        
        
          
          AI 代码解读

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://master:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

        
          
        
        
        
          
          AI 代码解读

5，hadoop-env.sh

vi hadoop-env.sh

        
          
        
        
        
          
          AI 代码解读

export JAVA_HOME=/opt/module/jdk1.8.0_212

        
          
        
        
        
          
          AI 代码解读

6，yarn-env.sh

vi yarn-env.sh

        
          
        
        
        
          
          AI 代码解读

export JAVA_HOME=/opt/module/jdk1.8.0_212

        
          
        
        
        
          
          AI 代码解读

7，workers

master
slave1
slave2

        
          
        
        
        
          
          AI 代码解读

2、配置环境变量

vi /etc/profile

        
          
        
        
        
          
          AI 代码解读

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

        
          
        
        
        
          
          AI 代码解读

3、给slave1和slave2分发配置文件

分发jdk

scp -r /opt/module/jdk1.8.0_212/ root@slave1:/opt/module/
scp -r /opt/module/jdk1.8.0_212/ root@slave2:/opt/module/

        
          
        
        
        
          
          AI 代码解读

分发环境变量配置文件

scp -r /etc/profile root@slave1:/etc/profile
scp -r /etc/profile root@slave2:/etc/profile

        
          
        
        
        
          
          AI 代码解读

分发hadoop

scp -r /opt/module/hadoop-3.1.3/ root@slave1:/opt/module/
scp -r /opt/module/hadoop-3.1.3/ root@slave2:/opt/module/

        
          
        
        
        
          
          AI 代码解读

使slave1和slave2的配置文件生效

切换到slave1和slave2 输入命令 source /etc/profile

输入java -version 查看是否成功

4、启动Hadoop集群

初始化NameNode(在master)

hdfs namenode -format

        
          
        
        
        
          
          AI 代码解读

启动hdfs和yarn

start-all.sh

        
          
        
        
        
          
          AI 代码解读

master 节点下输入 jps 显示以下内容

slave1节点下输入jps显示以下内容

大数据平台搭建（容器环境）——Hadoop

Hadoop3.X 完成分布式安装部署

一、 JDK安装

1、解压jdk

2、修改配置文件

3、免密登录

二、hadoop集群环境搭建

1、配置文件

2、配置环境变量

3、给slave1和slave2分发配置文件

4、启动Hadoop集群

配置完成！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据平台搭建（容器环境）——Hadoop

Hadoop3.X 完成分布式安装部署

一、 JDK安装

1、解压jdk

2、修改配置文件

3、免密登录

二、hadoop集群环境搭建

1、配置文件

2、配置环境变量

3、给slave1和slave2分发配置文件

4、启动Hadoop集群

配置完成！

热门文章

最新文章

相关课程

相关电子书

相关实验场景