Apache Doris Spark Load快速体验之Spark部署(1)
环境信息
硬件信息
- 1.CPU :4C
- 2.CPU型号:ARM64
- 3.内存 :10GB
- 4.硬盘 :66GB SSD
软件信息
- 1.VM镜像版本 :CentOS-7
- 2.Apahce Doris版本 :1.2.4.1
- 3.Scala版本:2.13
- 4.Spark版本:3.3.2
Spark介绍
伴随数据的巨量增长,Apache Spark 已成为分布式横向扩展数据处理的热门框架之一,可以在本地和云端数以百万计的服务器上运行。
Apache Spark 是应用于大型数据处理的快速通用分析引擎,可在 YARN、Apache Mesos、Kubernetes 上运行,也可独立或在云端运行。借助用于 SQL、流处理、机器学习和图形处理的高级运算符及库,Spark 使开发者能够通过交互式 shell、笔记本或应用程序包来使用 Scala、Python、R 或 SQL 轻松构建并行应用程序。通过功能编程模型和相关查询引擎 Catalyst,Spark 支持批量和交互式分析,可将作业转换为查询方案,并跨集群节点调度查询方案中的操作。
Spark 核心数据处理引擎之上存在多个用于 SQL 和 DataFrame、机器学习、GraphX、图形计算和流处理的库。用户可在来自各种数据源(例如 HDFS、Alluxio、Apache Cassandra、Apache HBase 或 Apache Hive)的海量数据集上结合使用这些库。
Spark安装部署
下载Spark
#根据自己scala版本和系统进行下载 wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3-scala2.13.tgz #创建安装文件夹 mkdir -p /opt/spark3.3.2 cd /opt/spark3.3.2 #解压安装 tar -xvf spark-3.3.2-bin-hadoop3-scala2.13.tgz mv spark-3.3.2-bin-hadoop3-scala2.13.tgz/* ./ rm -rf spark-3.3.2-bin-hadoop3-scala2.13.tgz*
安装Spark及初始化
配置环境变量
vim /etc/profile #spark3.3.2 export SPARK_HOME=/opt/spark3.3.2 export PATH=$SPARK_HOME/bin:$PATH #让环境配置生效 source /etc/profile