Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(1)

简介: Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式

简介:

Hadoop 是一个用 Java 语言实现的软件框架,运行在 Linux 生产平台上是非常理想的,同时也可以运行在其他平台上,如“Windows”等 用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。

它主要有以下 5 个优点

  • 高可靠性
  • 高扩展性
  • 高效性
  • 高容错性
  • 低成本

image.png

1、Java环境配置

下载包链接:

查询JDK是否安装

1. java
2. javac

如果安装移除即可

yum remove java -y

创建存储文件夹【/opt/soft与/opt/data】备用

1. cd /opt
2. mkdir soft
3. mkdir data

image.png


上传安装包(放在opt下面,解压出来后修改名称为jdk方便操作)

image.png

进入到【soft】文件夹下解压安装包

tar -zxvf jdk-8u161-linux-x64.tar.gz

解压后查询一下【ls】

image.png


为了操作方便,改一下文件夹名称:

mv jdk1.8.0_161 jdk

效果:


image.png


将java的环境变量配置到【/etc/profile.d/hadoop-eco.sh】

/etc/profile.d/hadoop-eco.sh

配置脚本文件,并通过【:wq】进行保存

JAVA_HOME=/opt/jdk

PATH=$JAVA_HOME/bin:$PATH


image.png


通过【cat】命令进行查验:

cat /etc/profile.d/hadoop-eco.sh

image.png

执行脚本

source /etc/profile.d/hadoop-eco.sh

image.png

java -version
java
javac

javac能执行,代表肯定配置好了。

image.png

image.png

相关文章
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
621 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
352 2
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
250 2
|
分布式计算 资源调度 Hadoop
【赵渝强老师】部署Hadoop的本地模式
本文介绍了Hadoop的目录结构及本地模式部署方法,包括解压安装、设置环境变量、配置Hadoop参数等步骤,并通过一个简单的WordCount程序示例,演示了如何在本地模式下运行MapReduce任务。
397 0
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
1011 2
|
分布式计算 Ubuntu Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
209 1
|
存储 分布式计算 Hadoop
Hadoop 运行的三种模式
【8月更文挑战第31天】
1334 0
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
资源调度 分布式计算 Hadoop
实时计算 Flink版产品使用问题之yarn session模式中启动的任务链接是http IP,想把IP映射为主机hadoop,该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
11月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
571 79

相关实验场景

更多