保姆级丨Spark环境搭建

简介: Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。

0x00 前言

Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。



0x01 环境说明

Xshell 7
Spark-3.3.0
centos-a(主节点)



0x02 准备工作

基于前期已经完成Hadoop部署,本文演示Spark安装过程。文中使用CentOS-7系统在三个虚拟机环境下进行示范,过程使用本地主机与虚拟机交互。首先要在Windows主机下载实验过程需要使用的环境。

Spark-3.3.0:

https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz



0x03 Spark安装

root运行终端

9e22c36f573b7ccdf4068d1d309b822.jpg

su root


创建spark文件夹

29cfbcde27c7720a77a99cce39ac10f.jpg

mkdir /usr/local/spark


打开spark文件夹

20a7cff4901a12d3f6bee4a7d4864a7.jpg

cd /usr/local/spark


利用lrzsz文件互传工具

8fd29a005161de186a427d50e9ee605.jpg

rz


上传spark-3.3.0-bin-hadoop3.tgz文件

9213ec1b502f215069df8ebaf31f63c.jpg


打开Spark文件夹

e55b69c2bd07e557d15e1dcaeaaa549.jpg

cd /usr/local/spark


解压Spark文件

27d342a58b267eac3cacbb3d58ddf6d.jpg

tar -zxvf spark-3.3.0-bin-hadoop3.tgz


重命名Spark解压后的文件

ac155f077765d9ab02b33abe0d537f5.jpg

mv ./spark-3.3.0-bin-hadoop3/ ./spark


给Spark管理员权限

0a41e844b99fba3826a7b3306e89567.jpg

chown-R root ./spark



0x04 Spark配置

复制一个去掉后缀名的文件,以编辑spark-env.sh文件

7ad8d49fa1b0cf20277cae0dfae89b2.jpg

cd spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh


打开spark-env.sh文件

d84078549c4bd4c2742087d81cdb66f.jpg

cd conf
vi spark-env.sh


编辑spark-env.sh文件

9e3e133b6b410a8ad87a7a9e8f92f9d.jpg

exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-3.3.3/bin/hadoop classpath)#--$(Hadoop路径+classpath)



0x04 启动Spark

在spark的bin目录下启动spark

bb3159928f9a922c494e4a8ca132332.jpg

cd /usr/local/spark/spark/bin
./spark-shell



0x05 总结

至此Spark环境搭建完成。由于作者水平有限,文中若有错误与不足欢迎留言,便于及时更正。

相关文章
|
7月前
|
分布式计算 Java Hadoop
Spark环境搭建和使用方法
Spark环境搭建和使用方法
647 1
|
7月前
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
273 0
|
7月前
|
分布式计算 Ubuntu Java
Spark环境搭建与使用
Spark环境搭建与使用
72 0
|
7月前
|
分布式计算 Hadoop Spark
Spark环境搭建和使用方法
Spark环境搭建和使用方法
75 1
|
分布式计算 大数据 Shell
Spark 环境搭建_配置 HistoryServer|学习笔记
快速学习 Spark 环境搭建_配置 HistoryServer
Spark 环境搭建_配置 HistoryServer|学习笔记
|
分布式计算 监控 Oracle
Spark Standalone环境搭建及测试
Spark Standalone环境搭建及测试
131 0
|
分布式计算 Java Scala
Spark Local环境搭建及测试
Spark Local环境搭建及测试
119 0
|
存储 分布式计算 资源调度
Spark集群环境搭建(standalone模式)
Spark集群环境搭建(standalone模式)
|
存储 分布式计算 资源调度
Spark本地环境搭建(local模式)
Spark本地环境搭建(local模式)
|
SQL 分布式计算 NoSQL
Spark 操作 kudu --环境搭建 &amp ;创建表操作 | 学习笔记
快速学习 Spark 操作 kudu --环境搭建 &amp ;创建表操作
467 0
Spark 操作 kudu --环境搭建 &amp ;创建表操作 | 学习笔记

热门文章

最新文章