Spark 环境搭建_下载和解压 Spark 安装包|学习笔记

简介: 快速学习 Spark 环境搭建_下载和解压 Spark 安装包

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段Spark 环境搭建_下载和解压 Spark 安装包】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11939


Spark 环境搭建_下载和解压 Spark 安装包

在 Spark集群搭建当中的一些步骤:

如何下载 Spark ,所采用的 Spark 是2.2.0版本,下载完 Spark 以后,需要把的 Spark 上传到服务器当中,上传到服务器当中以后,需要进行一系列的操作,比如说要解压,然后拷贝在的安装目录当中,拷贝完了以后,也解压完了以后,要去进行一些小小的配置,是主要配置,班的一些环境上的一些东西,配置完了以后,有一个额外的东西,就是要去配置一个 HistoryServer 。

配置完 HistoryServer 以后就可以把所有的 Spark 的整个安装包进行分发,分发完了以后就可以进行启动集群,那这是的大致的几个步骤。

image.png

如果要去下载 spark 的时,应该先进入 Spark 的官方网站 Spark 的官方网站 Spark.apache.org ,然后点击上方的 download 就可以进入到下载的页面当中,但是在选择 Spark 版本的时候可能会发没有 Spark2.2.0,接下来会告诉在哪个地方去下载,但是 Spark 它和 Hadoop 的关系是比较紧的,它也是 Hadoop 生态圈的一员,所以 Spark可能在很多时候需要去用到 HDFS 上的文件,需要去进行这样的一些整合好,在地方也要去选择一个  Hadoop 的版本,

根据的 Hadoop 版本去选就可以了,现在暂时应该采用的是2.7.5

下载2.2.0版本的 Spark

image.png

首先找到最后一部分叫做 Archived Releases ,就可以点击按钮,打开一个新的网站,打开一个新的页面,在新的页面当中,可以找到 Spark2.2.0,根据 Hadoop 版本下载一个 Spark 安装包就可以了。在今天的资料当中,也为提供了进入到 Spark 的整个的目录下,其中在根目录下有一个 Files 这样的一个目录。

image.png

点击进去有一个 Package ,然后,为提供了两个版本的 Spark ,都是2.2.0,但是,一个对应是 Hadoop2.6.1对应是 Hadoop2.7,现在使用的应该是使用2.7,第一步下载就已经搞定了,也不需要去下载,只需要在地方,去选择提供好的版本就可以了。

进入到笔记当中看接下来的步骤,应该去解压的安装包,在解压之前,应该先把的安装包拷贝到我服务器当中,打开的 SSH 客户端好,在地方使用的是一个叫做模板的一个工具, SSH 客户端是一个小工具,选用喜欢的工具就可以了。

接下来找到 root 的根目录,重启一下窗口。打开 Node01在 root 用户的加目录当中,其中有 Spark 的安装包已经上传到服务器当中了。

如果想要上传的话,使用的是工具的话,那么就可以在位置点击右键 Upload to current folder  ,就是把内容上传到当前的目录下,选择对应的版本,对应的版本在 Files 当中 Package 找到2.7这样一个版本打开就可以了。

需要做的应该先去 tar xzvf,然后去解压 Spark2.7.tgz 可以去解压内容,前面已经有一个目录了,Spark-2.2.3-bin-hadoop2.7。

名字还是会稍显有一点点长,所以把名字修改一下,把

Spark-2.2.3-bin-hadoop2.7 ,改为 Spark ,接下来,改完名字以后,就可以把 Spark 目录给它移动到的安装目录 export servers 当中。

进入 export servers时,可以去查看Spark 是否已经在这儿,所以这一步的安装是没有任何问题的,既然已经给他拷贝完了接下来,需要进行一些配置。

比如说 Spark 它是基于 Scala 来去编写的,所以它也需要去依赖JDK,包括 JDK 的路径之类的一些东西,该怎么去配置,接下来进入笔记查看下一个步骤,那下一个步骤,就是要去配置一个叫做 Sparkenv.sh 这样的一个文件,文件当中需要去添加一些内容,先把内容复制一下,再进入 SSH 客户端当中,进入 export 然后进入 servers 当中,进入 servers 当中以后再进入 Spark 目录当中。来看一下Spark跟目录下,有一个叫做 conf 的目录,它的配置文件理应就在conf目录下,所以进来 conf ,然后其中有一个叫做 Spark -env.sh.template 这样的一个可执行的文件,是以 template 结尾的。

所以要复制一份 env template,复制为 env,把 template给去掉,然后复制好了,以后再去查看已经在这了,接下来去编辑一下 Spark -env.sh 编辑以后,其实也能看到在地方给的注释还是比较详细的,

image.png

关于可以配什么什么,不可以配什么给地方显示的都有,就在这个位置,去进行一个小小的配置,把刚才复制的。

再做一个小小的检查,首先,要配置的是一个 JAVA home ,在 export servers 下,然后去指定 Spark Master 的地址,也就是 Spark 在启动的时候,Master 要有一个地址了,地址就是 Node01,然后对应的端口是7077,配置完了以后就可以保存并且退出那么到此为止,所做的安装的动作,就是首先下载,然后上传,然后移动,然后修改一下核心的配置文件好。

相关文章
|
4月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
165 1
Spark快速大数据分析PDF下载读书分享推荐
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
39 0
|
6月前
|
分布式计算 Java Hadoop
Spark环境搭建和使用方法
Spark环境搭建和使用方法
556 1
|
6月前
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
259 0
|
6月前
|
分布式计算 Ubuntu Java
Spark环境搭建与使用
Spark环境搭建与使用
68 0
|
6月前
|
分布式计算 Hadoop Spark
Spark环境搭建和使用方法
Spark环境搭建和使用方法
70 1
|
分布式计算 监控 Oracle
Spark Standalone环境搭建及测试
Spark Standalone环境搭建及测试
126 0
|
分布式计算 Java Scala
Spark Local环境搭建及测试
Spark Local环境搭建及测试
115 0
|
存储 分布式计算 资源调度
Spark集群环境搭建(standalone模式)
Spark集群环境搭建(standalone模式)
|
存储 分布式计算 资源调度
Spark本地环境搭建(local模式)
Spark本地环境搭建(local模式)