Hadoop伪分布教程

简介: 本文讲解了在CentOS下如何搭建大数据平台Hadoop,采用了简单的伪分布方式

1.Linux安装配置

1.1创建虚拟机

网络选择【桥接模式】

可选用最小化安装

1.2虚拟机网络配置

vi /etc/sysconfig/network-scripts/ifcfg-ens33

操作如下几行即可:

  1. BOOTPROTO=dhcp改为BOOTPROTO=static
  2. ONBOOT=no改为ONBOOT=yes
  3. 添加4行
  • IPADDR=192.168.1.200与物理机在同一网段
  • NETMASK=255.255.255.0与物理机子网掩码相同
  • GATEWAY=192.168.1.1与物理机网关相同
  • DNS1=202.193.80.72可与物理机相同

配置完则重启网卡:

service network restart

1.3检查网络配置是否正确

ping baidu.com //ping外网
ping 192.168.1.103 //ping物理机

虚拟机无法ping通物理机,可能是物理机开启了防火墙,在控制面板-Windows Defender中关闭防火墙即可。

1.4关闭防火墙

systemctl stop firewalld
systemctl status firewalld
systemctl disable firewalld

1.5关闭SELinux

setenforce 0
vi /etc/selinux/config

编辑/etc/selinux/config文件,将SELINUX=enforcing改成SELINUX=disabled 重启Linux

reboot

1.6主机名和ip映射

编辑hosts文件

vi /etc/hosts

追加内容:(虚拟机ip 虚拟机主机名)

例如:

192.168.1.200 hadoop

2.配置安装Java环境

2.1检查是否安装了Java

rpm -qa | grep java
rpm -qa | grep jdk
rpm -qs | grep gcj

如果自带了openjdk则需要卸载

rpm -e XXX

卸载完再检查一下

2.2安装Java

建议将软件安装在统一的目录

mkdir -p /data/soft/java

上传压缩包到此目录并解压

cd /data/soft/java && tar -xzvf jdk-8u311-linux-x64.tar.gz
rm -f jdk-8u311-linux-x64.tar.gz

重命名

mv /data/soft/java/jdk1.8.0_311 /data/soft/java/jdk1.8

2.3配置Java环境变量

vi /etc/profile

追加两行:

export JAVA_HOME=/data/soft/java/jdk1.8
export PATH=$JAVA_HOME/bin:$PATH

使环境变量生效

source /etc/profile

检查是否配置成功

java -version

3.配置SSH免密登陆

3.1创建公钥/私钥对

ssh-keygen -t rsa

连续按三次回车即可

3.2合并公钥到authorized_keys文件

cd ~/.ssh && cat id_rsa.pub >> authorized_keys

检查免密配置是否成功

ssh 192.168.1.200

4.配置安装Hadoop3.3.2

4.1下载解压hadoop

建议创建一个单独的目录

mkdir /data/soft/hadoop

上次压缩包到此目录,并解压改名

cd /data/soft/hadoop && tar -xzvf hadoop-3.3.2.tar.gz && rm -f hadoop-3.3.2.tar.gz

4.2修改配置文件

在hadoop-3.3.2目录下创建数据存放目录

mkdir tmp && mkdir -p hdfd/{data,name}

4.2.1修改hadoop-env.sh

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/hadoop-env.sh

追加如下内容:

export JAVA_HOME=/data/soft/java/jdk1.8
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

4.2.2修改core-site.xml

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/core-site.xml

修改如下:

<configuration>
 <property>
    <name>fs.defaultFS</name>        
    <value>hdfs://localhost:9000</value>ue>
    <description>HDFS的URI,文件系统://namenode标识:端口号</description>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/data/soft/hadoop/hadoop-3.3.2/tmp</value>
 <description>namenode上本地的hadoop临时文件夹</description>
</property>
</configuration>

4.2.3修改hdfs-site.xml

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/hdfs-site.xml

修改如下:

<configuration>
   <property>
       <name>dfs.replication</name>
       <value>1</value>
       <description>副本个数,配置默认是3,应小于datanode机器数量</description>
   </property>
</configuration>

4.2.4修改mapred-site.xml

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/mapred-site.xml

修改如下:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.2.5修改yarn-site.xml

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/yarn-site.xml

修改如下:

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4.2.6修改workers

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/workers

修改成自己的主机名

我的是hadoop

4.2.7修改yarn-env.sh

vi /data/soft/hadoop/hadoop-3.3.2/etc/hadoop/yarn-env.sh

追加如下内容:

export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

4.3格式化namenode

/data/soft/hadoop/hadoop-3.3.2/bin/hdfs namenode -format

5.启动

/data/soft/hadoop/hadoop-3.3.2/sbin/start-dfs.sh
/data/soft/hadoop/hadoop-3.3.2/sbin/start-yarn.sh

或者

/data/soft/hadoop/hadoop-3.3.2/sbin/start-all.sh

如需停止输入命令

/data/soft/hadoop/hadoop-3.3.2/sbin/stop-all.sh

6.验证

浏览器打开

http://192.168.1.200:9870/

http://192.168.1.200:8088/

相关文章
|
7月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
148 0
|
3月前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
4月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
293 2
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(二)
|
4月前
|
分布式计算 Ubuntu Hadoop
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
Hadoop入门基础(二):Hadoop集群安装与部署详解(超详细教程)(一)
|
7月前
|
弹性计算 分布式计算 Hadoop
Linux(阿里云)安装Hadoop(详细教程+避坑)
Linux(阿里云)安装Hadoop(详细教程+避坑)
1829 3
|
7月前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
98 2
|
6月前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
278 0
|
7月前
|
分布式计算 资源调度 Hadoop
hadoop的伪分布式搭建-带网盘
hadoop的伪分布式搭建-带网盘
60 3
|
7月前
|
分布式计算 Hadoop 关系型数据库
使用Sqoop将数据导入Hadoop的详细教程
使用Sqoop将数据导入Hadoop的详细教程

相关实验场景

更多