Hadoop 3.1.1伪分布式模式安装

简介: - 学会安装Hadoop3.1.1版本的伪分布式模式 - 可以进行Hadoop技术开发(包括HDFS,MapReduce等) - HDFS启动停止命令,yarn启动停止命令 - 官网自带WorldCount示例运行 - 进行管理界面管理NamenNode管理和ResourceManager管...

Hadoop 3.1.1伪分布式模式安装

更多资源

github: https://github.com/opensourceteams/hadoop-java-maven-3.1.1

视频

前置条件

  • jdk.1.8.0_191 已安装
  • linux 系统(本文选用的centos 7 系统已完装好)

技能标签

  • 学会安装Hadoop3.1.1版本的伪分布式模式
  • 可以进行Hadoop技术开发(包括HDFS,MapReduce等)
  • HDFS启动停止命令,yarn启动停止命令
  • 官网自带WorldCount示例运行
  • 进行管理界面管理NamenNode管理和ResourceManager管理
  • 对Hadoop集群环境操作(一台机器也可以做集群,只是节点只有一个,很多功能都可以操作)

安装步骤

安装ssh

  • 一般安装系统后都已自带ssh服务,就可以跳过,直接在终端执行ssh命令,有这个命令就可以
  • 如果没有需要安装如下服务
yum install ssh
yum install pdsh

下载Hadoop安装包

tar -zxvf /hadoop-3.1.1.tar.gz  -C /opt/module/bigdata

配置

hadoop-env.sh

  • 编辑etc/hadoop/hadoop-env.sh
  • 调置JAVA_HOME环境变量
# set to the root of your Java installation
  export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191

执行命令 Hadoop

  • 确认hadoop命令是否可以正常执行
  • 查看当前版本命令
bin/hadoop version

独立模式

  • 本地模式

执行官方自带示例

mkdir input
  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

伪分布式模式

配置环境变量

  • 配置在本地用户下 ~/.bashrc
export HADOOP_HOME=/opt/module/bigdata/hadoop-3.1.1
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置core-site.xml

  • 配置文件 etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置hdfs-site.xml

  • etc/hadoop/hdfs-site.xml:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

配置 ssh免密登录

  • 验证是否已经配置 ssh
ssh localhost
  • 如果需要输入密码验证,则执行以下
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys
  • 也可以执行以下
ssh-keygen 
ssh-copy-id 远程ip地址

格式化namenode

 bin/hdfs namenode -format

启动namenode和datanode

sbin/start-dfs.sh
  • 可配置日志输出目录
$HADOOP_LOG_DIR directory (defaults to $HADOOP_HOME/logs).

访问namenode

HDFS上新建目录

bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>

上传本机文件到HDFS上

bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input

运行示例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar grep input output 'dfs[a-z.]+'

查看示例输出结果(先下到本地再看)

 bin/hdfs dfs -get output output
 $ cat output/*

查看HDFS上的文件内容

 bin/hdfs dfs -cat output/*

停止namemode和datanode

sbin/stop-dfs.sh

hadoop-daemon.sh命令

 hdfs --daemon start namenode
 hdfs --daemon start datanode
 hdfs --daemon stop namenode
 hdfs --daemon stop datanode

  

HDFS命令操作

  • 在HDFS上新建目录
hdfs dfs -mkdir -p /home/liuwen/data
  • 上传本地文件到HDFS
hdfs dfs -put /opt/temp/a.txt  /home/liuwen/data
  • 查看HDFS文件
hdfs dfs -text  /home/liuwen/data/a.txt

YARN 配置伪分布式模式

配置文件mapred-site.xml

  • etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

<configuration>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

配置文件mapred-site.xml

  • etc/hadoop/yarn-site.xml:
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

启动YARN

  • 启动 ResourceManager daemon 和 NodeManager daemon
sbin/start-yarn.sh

访问资源管理器

停止YARN

  • 停止 ResourceManager daemon 和 NodeManager daemon
sbin/stop-yarn.sh

WorldCount官网示例运行

  • 配置环境变量直接运行 hadoop命令
  • worldcount标签,examples自带运行对应的程序
  • 输入数据源
  • 输出数据源

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar wordcount  /opt/data/a.txt  /opt/temp/output/output_2

Hadoop_3_1_1_001_jpeg

end

相关文章
|
2月前
|
分布式计算 资源调度 Hadoop
centos7二进制安装Hadoop3
centos7二进制安装Hadoop3
|
2月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
82 2
|
2月前
|
分布式计算 Ubuntu Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
24 1
|
2月前
|
存储 分布式计算 Hadoop
Hadoop 运行的三种模式
【8月更文挑战第31天】
106 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
48 2
|
3月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
4月前
|
资源调度 分布式计算 Hadoop
实时计算 Flink版产品使用问题之yarn session模式中启动的任务链接是http IP,想把IP映射为主机hadoop,该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
170 0
|
5月前
|
分布式计算 Hadoop Java
hadoop的基础设施-protobuf-2.5.0编译和安装
hadoop的基础设施-protobuf-2.5.0编译和安装
43 0
|
8天前
|
存储 分布式计算 资源调度
两万字长文向你解密大数据组件 Hadoop
两万字长文向你解密大数据组件 Hadoop
26 11

相关实验场景

更多
下一篇
无影云桌面