保姆级丨Spark环境搭建-阿里云开发者社区

保姆级丨Spark环境搭建

2022-10-04 438

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。

0x00 前言

Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模的数据进行快速分析查询。

0x01 环境说明

Xshell 7

Spark-3.3.0

centos-a(主节点)

0x02 准备工作

基于前期已经完成Hadoop部署，本文演示Spark安装过程。文中使用CentOS-7系统在三个虚拟机环境下进行示范，过程使用本地主机与虚拟机交互。首先要在Windows主机下载实验过程需要使用的环境。

ⅠSpark-3.3.0:

https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz

0x03 Spark安装

Ⅰroot运行终端

su root

Ⅱ创建spark文件夹

mkdir /usr/local/spark

Ⅲ打开spark文件夹

cd /usr/local/spark

Ⅳ利用lrzsz文件互传工具

rz

Ⅴ上传spark-3.3.0-bin-hadoop3.tgz文件

Ⅵ打开Spark文件夹

cd /usr/local/spark

Ⅶ解压Spark文件

tar -zxvf spark-3.3.0-bin-hadoop3.tgz

Ⅷ重命名Spark解压后的文件

mv ./spark-3.3.0-bin-hadoop3/ ./spark

Ⅸ给Spark管理员权限

chown-R root ./spark

0x04 Spark配置

Ⅰ复制一个去掉后缀名的文件，以编辑spark-env.sh文件

cd spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

Ⅱ打开spark-env.sh文件

cd conf
vi spark-env.sh

Ⅲ编辑spark-env.sh文件

exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-3.3.3/bin/hadoop classpath)#--$(Hadoop路径+classpath)

0x04 启动Spark

Ⅰ在spark的bin目录下启动spark

cd /usr/local/spark/spark/bin
./spark-shell

0x05 总结

至此Spark环境搭建完成。由于作者水平有限，文中若有错误与不足欢迎留言，便于及时更正。

保姆级丨Spark环境搭建

0x00 前言

0x01 环境说明

0x02 准备工作

0x03 Spark安装

0x04 Spark配置

0x04 启动Spark

0x05 总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

保姆级丨Spark环境搭建

0x00 前言

0x01 环境说明

0x02 准备工作

0x03 Spark安装

0x04 Spark配置

0x04 启动Spark

0x05 总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景