Centos下搭建Hadoop伪分布式(一)

简介: Centos下搭建Hadoop伪分布式

什么是Hadoop?


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算


hadoop官网


http://hadoop.apache.org/

1.png


解下来我们需要一台服务器,以及相关服务器配置


软硬件环境


 CentOS 7.2 64 位 
 OpenJDK- 1.8 
 Hadoop- 2.7


安装 SSH 客户端


安装SSH


sudo yum -y install openssh-clients openssh-server

安装完成后,可以使用下面命令进行测试:

ssh somnus-hadoop

这里为了好区分机器,这里对主机名做了下改名

1.png

这里使用的root账号登陆的,通过ssh 命令测试,这里需要输入密码,默认就是root账号的密码,出现上面截图,那就说名安装ssh没问题,开始我们下一步。


jdk安装


sudo yum  -y install java-1.8.0-openjdk java-1.8.0-openjdk-devel

1.png

jdk安装很简单,通过命令直接安装openjdk或者看我以前快速部署脚本博客,通过脚本快速部署。

安装jdk,还需要配置 JAVA 环境变量


执行命令:


编辑 ~/.bashrc,在结尾追加:


export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

保存文件后执行下面命令使 JAVA_HOME 环境变量生效:

source ~/.bashrc

为了检测系统中 JAVA 环境是否已经正确配置并生效,可以分别执行下面命令:

java -version
$JAVA_HOME/bin/java -version

若两条命令输出结果一致,且都为我们前面安装的 openjdk-1.8.0 的版本,则表明 JDK 环境已经正确安装并配置。

1.png


安装hadoop

这里我们通过wget来下载 hadoop-2.7 版本,我们可以根据自己的网络选择适合自己的下载地址
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz

这里可以通过官网查看版本,或者选择适合自己的去下载,这个下载过程可能会相对慢一点,现在官网已经出了3的版本了

1.png

1.png

接下来,解压下载好的hadoop-2.7.4.tar.gz

将 Hadoop 安装到 /usr/local 目录下:

 tar -zxf hadoop-2.7.4.tar.gz -C /usr/local

对安装的目录进行重命名,便于后续操作方便:

cd /usr/local
mv ./hadoop-2.7.4/ ./hadoop

1.png

检查Hadoop是否已经正确安装:

/usr/local/hadoop/bin/hadoop version

1.png

如果成功输出hadoop的版本信息,表明hadoop安装成功。


Hadoop 伪分布式环境配置


Hadoop伪分布式模式使用多个守护线程模拟分布的伪分布运行模式。


设置 Hadoop 的环境变量

编辑 ~/.bashrc,在结尾追加如下内容:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使Hadoop环境变量配置生效:

source ~/.bashrc


相关文章
|
2月前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
3月前
|
分布式计算 资源调度 Hadoop
centos7二进制安装Hadoop3
centos7二进制安装Hadoop3
|
3月前
|
分布式计算 Java Hadoop
centos7编译安装Hadoop3
centos7编译安装Hadoop3
|
3月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
171 2
|
3月前
|
SQL 分布式计算 Hadoop
centos7通过CDH部署Hadoop
centos7通过CDH部署Hadoop
|
3月前
|
分布式计算 Java Linux
centos7通过Ambari2.74部署Hadoop
centos7通过Ambari2.74部署Hadoop
|
6月前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
70 2
|
5月前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
216 0
|
6月前
|
分布式计算 资源调度 Hadoop
hadoop的伪分布式搭建-带网盘
hadoop的伪分布式搭建-带网盘
52 3
|
6月前
|
存储 分布式计算 资源调度
centos 部署Hadoop-3.0-高性能集群(二)
centos 部署Hadoop-3.0-高性能集群(二)
53 0
centos 部署Hadoop-3.0-高性能集群(二)
下一篇
无影云桌面