Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)

简介: Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)

Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一):https://developer.aliyun.com/article/1597085

3. 配置yarn-site.xml

编辑$HADOOP_HOME/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4. 配置mapred-site.xml

复制默认模板并进行修改:

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

编辑mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5. 配置slaves文件

编辑$HADOOP_HOME/etc/hadoop/slaves文件,列出所有DataNode节点:

slave1
slave2

6. 分发配置文件到所有节点

将配置好的Hadoop文件夹分发到所有节点:

scp -r /usr/local/hadoop slave1:/usr/local/
scp -r /usr/local/hadoop slave2:/usr/local/

五、启动Hadoop集群

1. 格式化HDFS

在master节点上运行以下命令来格式化HDFS:

hdfs namenode -format

2. 启动HDFS和YARN

依次启动HDFS和YARN服务:

start-dfs.sh
start-yarn.sh

3. 验证集群状态

启动Hadoop之后,可以通过Web界面查看集群状态:

  • NameNode UI: http://master:9870
  • ResourceManager UI: http://master:8088

4. 验证节点连通性

在master节点上,执行以下命令以检查节点状态:

hdfs dfsadmin -report
yarn node -list

六、测试集群

运行Hadoop提供的示例程序,验证集群是否正常工作:

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

验证输出结果

查看生成的结果文件:

hdfs dfs -cat /output/part-r-00000

七、总结

本文涵盖了从设置主机名、配置SSH免密登录、安装Java环境到Hadoop配置与启动的详细步骤。通过这些步骤,你可以成功搭建一个Hadoop集群,为大数据学习和实际应用打下坚实的基础。下一步,你可以尝试

配置高可用性或对集群进行性能优化。

八、附录

分发脚本

#!/bin/bash
 
if [ $# -lt 1 ]
then
  echo Not Enough Arguemnet!
  exit;
fi
 
for host in 10.0.13.239 10.0.13.253 10.0.13.196
do
  echo =============== $host =================
  for file in $@
  do 
    if [ -e $file ]
      then
        pdir=$(cd -P $(dirname $file); pwd)
        fname=$(basename $file)
        ssh -p 36000 $host "mkdir -p $pdir"
        rsync  -e 'ssh -p 36000' -av $pdir/$fname $host:$pdir
      else
        echo $file does not exists!
    fi
  done
done

相关文章
|
16天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(四):Hadoop启动踩坑记录
Hadoop入门基础(四):Hadoop启动踩坑记录
|
2月前
|
SQL 分布式计算 Hadoop
centos7通过CDH部署Hadoop
centos7通过CDH部署Hadoop
|
2月前
|
分布式计算 Java Linux
centos7通过Ambari2.74部署Hadoop
centos7通过Ambari2.74部署Hadoop
|
2月前
|
存储 分布式计算 监控
Hadoop在云计算环境下的部署策略
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。随着云计算技术的发展,越来越多的企业开始利用云平台的优势来部署Hadoop集群,以实现更高的可扩展性、可用性和成本效益。本文将探讨如何在公有云、私有云及混合云环境下部署和管理Hadoop集群,并提供具体的部署策略和代码示例。
75 0
|
12天前
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
49 11
|
18小时前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
19 5
|
18小时前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
15 4
|
18小时前
|
XML 大数据 网络安全
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
15 4