大数据 | (一)Hadoop伪分布式安装

简介: 大数据 | (一)Hadoop伪分布式安装

大数据原理与应用教材链接:大数据技术原理与应用电子课件-林子雨编著

Hadoop伪分布式安装借鉴文章:Hadoop伪分布式安装-比课本详细

大数据 | (二)SSH连接报错Permission denied:SSH连接报错Permission denied


哈喽,大家好!本期给大家带来的是Hadoop的伪分布式安装。

 

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。

 

而随着Hadoop的发展,Hadoop也逐渐成为大数据的代名词。


一、Hadoop概述

1.1 Hadoop简介

Hadoop是apache软件基金会旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构。

Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且开源部署在廉价的计算机集群中。Hadoop的核心是HDFS(Hadoop分布式文件系统)和MapReduce(一种编程模型)


1.2 Hadoop特性


Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

高可靠性。即使一个副本发生鼓掌,其他副本也可以保证正常对外提供服务。

高效性。Hadoop采用分布式存储和分布式处理两大核心技术,能够高效的处理PB级数据

高可扩展性。Hadoop可以扩展到数以千计的计算机节点上。

高容错性。采用数据冗余存储方式,自动保存数据的多个副本。

成本低。Hadoop采用廉价的计算机集群

运行在Linux系统上。Hadoop基于Java语言开发,可以较好的运行在Linux上

支持多种编程语言。Hadoop上的应用程序也可以使用其他语言编写,如C++。



1.3 Hadoop应用现状


国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的计算机集群比较大。


1.4 Hadoop版本


Apache Hadoop版本分为三代、分别时Hadoop1.0、Hadoop2.0、Hadoop3.0。除了免费开源的Apache Hadoop以外,还有一些商业公司推出的Hadoop发行版。2008年,Cloudera成为第一个Hadoop商业化公司,并在2009年推出第一个Hadoop发行版。


二、Hadoop生态系统


经过多年的发展,Hadoop生态系统不断完善和成熟,目前已经包含了多个子项目,除了核心的HDFS和MapReduce以外,Hadoop生态系统还包括ZooKeeper、HBase、Hive、Pig、Mahout、Flume、Sqoop、Ambari等功能组件。


三、Hadoop的安装和使用


3.1 更新apt和安装vim编辑器


首先使用如下命令更新软件包:

sudo apt-get update


efdaf0044fa9473486454a6cb9bd3da5.png

然后安装 Vim 编辑器:

sudo apt-get install vim



a7eff7e13e424948bc777b6d6ab64c19.png


3.2 安装SSH并配置SSH免密登录


使用如下命令安装SSH-Server:

sudo apt-get install openssh-server


之后可以使用如下命令,并输入登录到本机:

ssh localhost

输入如下命令退出登录:

exit

使用命令进入到如下目录:

cd ~/.ssh/


生成公钥和私钥:

ssh-keygen -t rsa

此时 ls ,可以看到文件夹下有这些目录:


d11646e85ea24c309e416323ee9cf71a.png


之后再使用如下命令,就可以直接登录了!

ssh localhost

如果遇到SSH免密登录报错,请参考博主的这篇文章,因为篇幅原因将这个错误独立开来,方便大家查看。SSH连接报错Permission denied


3.3 安装Java环境


如果你之前安装过JDK,可以使用如下命令查看JAVA_HOME(JDK的安装路径),输入Java,javac等检测,并跳过这个步骤。

echo $JAVA_HOME


如果之前没有安装过JDK,请继续往下看。

首先从官网或博主的百度网盘下载JDK8压缩包:

官网下载地址:JDK8Linux压缩包下载地址


002da698fc7b4642b3ea37548b927332.png

百度网盘下载地址:百度网盘JDK8Linux压缩包下载地址

通过 xftp 或 lrzsz 传输到Linux系统上,并解压到当前文件夹:

tar -xzvf jdk-8u202-linux-x64.tar.gz


407c9563ffeb4af297e71d52742c0536.png


配置环境变量:

vim ~/.bashrc

按 i 进入插入模式,在文件开头输入以下内容:

d362f4a96f2f48589cc9dd1a229196ce.png


按下esc,然后输入冒号,wq保存退出。

刷新配置:

source ~/.bashrc

使用如下命令测试是否安装成功:

java -version

如果出现类似下面的结果,就说明安装成功了!

dc9587d3aa5640608821393701e9842f.png

3.4 安装单机Hadoop


下载Hadoop,可以在官网下载,也可以在博主的百度网盘下载,这里选择的Hadoop版本是3.1.3。

Hadoop官网下载:Hadoop官网下载地址

百度网盘下载地址:Hadoop百度网盘下载地址

然后将安装包上传到Linux服务器,并使用如下命令解压:

tar -xzvf hadoop-3.1.3.tar.gz

解压后得到这个Hadoop-3.1.3这个文件夹,但是这里我改文件名了

改文件名命令:

mv hadoop-3.1.3 hadoop

93e912e1381847c78429f3c8286ebb92.png

现在可以运行如下命令,查看Hadoop是否安装成功:

./bin/hadoop version

至此,安装Hadoop完成,下面进行Hadoop的伪分布式安装(重要!)


3.5 Hadoop伪分布式安装


首先修改两个配置文件,分别是core-site.xml文件和hdfs-site.xml文件,进入到hadoop目录下的etc/hadoop目录,执行下面的操作。

修改core-site.xml文件内容如下:


1b94edaf652d454e95bfcdc4f6d6b4a1.png


修改core-site.xml文件内容如下:

edc402aa40a14748a62263bddcf501eb.png

进入到hadoop目录下,之后执行如下命令:


./bin/hdfs namenode -format


执行完之后,如果没有报错类似于Java报错的内容,说明Hadoop伪分布式安装就成功了!

因为这个Hadoop格式化只能执行一次,博主在这之前已经执行过,所以这里不再演示执行结果。  

附上一些操作过程中可能用到的命令:


查看文件权限:

ls -l 文件名

用户操作:

列出所有的用户

cat /ect/passwd


删除用户:

userdel -r 用户名

添加用户:

sudo useradd -m 用户名

切换用户:

su


写在最后:

 

大数据作为一种近几年才兴起的技术,对科学研究、思维方式、社会发展、就业市场和人才培养都有重要的影响。希望大家能从Hadoop安装这个里程,开始自己的大数据之旅吧!共勉!

 


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
弹性计算 分布式计算 Hadoop
Linux(阿里云)安装Hadoop(详细教程+避坑)
Linux(阿里云)安装Hadoop(详细教程+避坑)
26 3
|
5天前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
44 0
|
5天前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
8 2
|
5天前
|
分布式计算 资源调度 Hadoop
安装hadoop学习笔记
安装hadoop学习笔记
17 0
安装hadoop学习笔记
|
5天前
|
分布式计算 资源调度 Hadoop
java与大数据:Hadoop与MapReduce
java与大数据:Hadoop与MapReduce
28 0
|
5天前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
|
5天前
|
分布式计算 Hadoop Linux
找到Hadoop的安装目录
【4月更文挑战第19天】具体的安装目录可能因您的安装方式和环境而有所不同。如果您在安装Hadoop时遵循了特定的教程或文档,建议参考该教程或文档中的安装目录信息。
16 3
|
5天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
96 2
|
5天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
5天前
|
分布式计算 Hadoop 大数据
[大数据] mac 史上最简单 hadoop 安装过程
[大数据] mac 史上最简单 hadoop 安装过程