hadoop伪分布式安装记录

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: hadoop伪分布式安装记录

引语:

    最近想接触一些大数据相关的技术,所以有了这篇文章,其实就是记录一下自己学习hadoop的过程,如果文章中有啥写的不对的地方,还望指正(有java开发经验,但是是大数据小白一只,各位大神轻喷.)
我先是在网上搜索了一波大数据应该要学些什么技术,基本上不约而同的都是指向了hadoop.
    摘自维基百科:Apache Hadoop链接地址.看完维基百科描述,我们大概知道了hadoop是一个分布式的大数据框架,在深入一些我们会知道
它是由很多个组件组成的(比如核心的HDFS,Hadoop Distributed File System,Mapreduce框架,还有很多Hive,HBase等等)。所以hadoop其实也是代指hadoop的一套的生态系统。光说不练假把式,好的我们来看看怎么安装,搭建hadoop的环境呢?

安装步骤:

    这里其实有个前提,默认各位大佬的机器上已经安装好了linux和java环境。如果没有可以动动您灵活的手指,在搜索栏敲下“如何安装linux/java环境”,不开玩笑了,这个比较常见。
hadoop安装官网上说是有三种方式:
1.单机模式安装
2.伪分布式安装
3.全分布式安装(真.分布式)
我这里使用的是伪分布式,有人要问为啥不用真.分布式呢?
第一是初学者学会了伪分布式,基本上全分布式也是不会有大问题的,只是机器多了;
第二是因为贫穷,

在云服务器上搭建的,全分布式要搞好几台。2333~ 开个玩笑啦,主要是懒~

1.下载hadoop

去官网下载就可以了,官网链接

点击source,然后在跳转的页面中下载hadoop-3.1.2-src.tar.gz。

tar -zxvf hadoop-3.1.2-src.tar.gz

然后进入到 hadoop-3.1.2中,目录是这样

bin和sbin是可执行脚本的目录,etc是放hadoop配置文件的目录。

2.配置hadoop

(1).首先先配置hadoop的环境文件hadoop-env.sh,进入到hadoop-3.1.2/etc/hadoop目录下,编辑 hadoop-env.sh文件
然后搜索JAVA_HOME,会发现两处,但是可以通过阅读英文注释得知是哪一个

# Technically, the only required environment variable is JAVA_HOME.
# All others are optional.  However, the defaults are probably not
# preferred.  Many sites configure these options outside of Hadoop,
# such as in /etc/profile.d

# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!

在这下面添加export JAVA_HOME=“机器上的jdk地址”

在环境变量中添加hadoop的配置,vim /etc/profile,添加hadoop_home

export HADOOP_HOME=/home/hadoop/hadoop-3.1.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

(2).在配置hadoop的核心配置文件core-site.xml,这里配置的是hdfs的NameNode地址和数据存储目录路径
在里面添加:

这个是hdfs的地址
<property>
       <name>fs.defaultFS</name>
       <value>hdfs://wxwwt-hadoop:9000</value>
   </property>
hadoop存储数据路径
<property>
     <name>hadoop.tmp.dir</name>
     <value>/home/hadoop/hadoop-3.1.2/data</value>
</property>

wxwwt-hadoop这个是自己随便取得名字,记得在etc/hosts中配置一下,映射到本地127.0.0.1

(3).配置mapred-site.xml,从名字上就能看出来是和MapReduce相关的。指定一下调度系统的配置

<property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
</property>

(4).配置yarn-site.xml

<configuration>
指定ResouceManager的地址
    <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>wxwwt-hadoop</value>
    </property>
指定MapReduce的方式
    <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
    </property>
</configuration>

到这里已经上hadoop的配置文件是弄完了

3.格式化文件系统

hdfs namenode -format

如果能看到类似下面的信息,说明格式化成功了

Storage directory /home/hadoop/hadoop-3.1.2/data/dfs/name has been successfully formatted.

4.运行hadoop,start-dfs.sh

不过在运行之前,先得说一句如果之前一直使用的root用户的话,这里运行会报错。因为会因为是root用户,hadoop不建议使用root用户。会报出

ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.

类似的错误。
(1).如果想用root用户继续执行的话,得在启动脚本start-dfs.sh中添加

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

并且要设置root的免密登录。
步骤:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

(2).如果要使用其他用户的话,先得将hadoop的目录权限给这个用户添加下
比如:我要使用wxwwt用户来操作

useradd wxwwt
passwd wxwwt
chown -R wxwwt:wxwwt /home/hadoop-3.1.2
su wxwwt

设置用用户名密码,将hadoop目录权限给wxwwt,然后切换用户。再设置免密登录

ssh-keygen -t rsa
ssh-copy-id localhost

然后在运行hadoop。

start-hdfs.sh执行完,看下jps如果出现了NameNode,SecondaryNameNode,DataNode的进程就是HDFS启动成功了

5.启动yarn,start-yarn.sh。

启动完后再看下jps,如图出现了ResourceManager,NodeManager就大功告成。

总结:

1.hadoop的一些简单概念,它也是一个大的生态系统;
2.hadoop安装分三种模式,单机,伪分布式,全分布式;文中介绍的是伪分布式,就是在一台机器上弄的;
3.安装中主要就是按教程添加配置,但是其中还是有坑的,记住启动的时候root的坑,和免密登录。

参考资料:

1.https://hadoop.apache.org/docs/r3.1.2/hadoop-project-dist/hadoop-common/SingleCluster.html(官网伪分布式教程)
2.https://blog.csdn.net/solaraceboy/article/details/78438336(免密登录教程)
3.https://blog.csdn.net/whq12789/article/details/79782020
4.https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/(yarn介绍)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
分布式计算 资源调度 Hadoop
centos7二进制安装Hadoop3
centos7二进制安装Hadoop3
|
2月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
97 2
|
2月前
|
分布式计算 Ubuntu Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
在Ubuntu 16.04上如何在独立模式下安装Hadoop
25 1
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
50 2
|
5月前
|
弹性计算 分布式计算 Hadoop
Linux(阿里云)安装Hadoop(详细教程+避坑)
Linux(阿里云)安装Hadoop(详细教程+避坑)
832 3
|
4月前
|
分布式计算 Hadoop 大数据
【大数据】Hadoop下载安装及伪分布式集群搭建教程
【大数据】Hadoop下载安装及伪分布式集群搭建教程
176 0
|
5月前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
48 2
|
5月前
|
分布式计算 资源调度 Hadoop
安装hadoop学习笔记
安装hadoop学习笔记
60 0
安装hadoop学习笔记
|
5月前
|
分布式计算 Hadoop Java
hadoop的基础设施-protobuf-2.5.0编译和安装
hadoop的基础设施-protobuf-2.5.0编译和安装
43 0
|
5月前
|
分布式计算 Hadoop Linux
找到Hadoop的安装目录
【4月更文挑战第19天】具体的安装目录可能因您的安装方式和环境而有所不同。如果您在安装Hadoop时遵循了特定的教程或文档,建议参考该教程或文档中的安装目录信息。
154 3

相关实验场景

更多