0x00 前言
Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。
0x01 环境说明
Xshell 7 |
Spark-3.3.0 |
centos-a(主节点) |
0x02 准备工作
基于前期已经完成Hadoop部署,本文演示Spark安装过程。文中使用CentOS-7系统在三个虚拟机环境下进行示范,过程使用本地主机与虚拟机交互。首先要在Windows主机下载实验过程需要使用的环境。
ⅠSpark-3.3.0:
https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz
0x03 Spark安装
Ⅰroot运行终端
su root
Ⅱ创建spark文件夹
mkdir /usr/local/spark
Ⅲ打开spark文件夹
cd /usr/local/spark
Ⅳ利用lrzsz文件互传工具
rz
Ⅴ上传spark-3.3.0-bin-hadoop3.tgz文件
Ⅵ打开Spark文件夹
cd /usr/local/spark
Ⅶ解压Spark文件
tar -zxvf spark-3.3.0-bin-hadoop3.tgz
Ⅷ重命名Spark解压后的文件
mv ./spark-3.3.0-bin-hadoop3/ ./spark
Ⅸ给Spark管理员权限
chown-R root ./spark
0x04 Spark配置
Ⅰ复制一个去掉后缀名的文件,以编辑spark-env.sh文件
cd spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh
Ⅱ打开spark-env.sh文件
cd conf vi spark-env.sh
Ⅲ编辑spark-env.sh文件
exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-3.3.3/bin/hadoop classpath)#--$(Hadoop路径+classpath)
0x04 启动Spark
Ⅰ在spark的bin目录下启动spark
cd /usr/local/spark/spark/bin ./spark-shell
0x05 总结
至此Spark环境搭建完成。由于作者水平有限,文中若有错误与不足欢迎留言,便于及时更正。