备案控制台

开发者社区大数据文章正文

安装Spark

2024-03-14 111

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 安装Spark

安装Spark

任务描述

本关任务：完成Spark安装。

相关知识

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本节将详细说明 Spark 的安装。

下载Spark

首先需要下载Spark安装文件。访问Spark官方下载地址，Downloads | Apache Spark 按照如图所示的下载。

可以提示点击进行下载。

解压Spark

本实验中Spark采用Local模式进行安装，也就是在单机上运行Spark，因此，在安装Hadoop时，需要按照伪分布式模式进行安装。在单台机器上按照“Hadoop（伪分布式）+Spark（Local模式）”这种方式进行Hadoop和Spark组合环境的搭建，可以较好满足入门级Spark学习的需求。打开终端，输入下述命令：

tar -zvxf /data/bigfiles/spark-3.3.1-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
mv ./spark-3.3.1-bin-without-hadoop/ ./spark
chown -R root:root ./spark # 此处的 hadoop 为你的用户名

配置Spark

安装后，还需要修改Spark的配置文件spark-env.sh：

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

配置完成后就可以直接使用，不需要像Hadoop运行启动命令。通过运行Spark自带的示例，验证Spark是否安装成功。

cd /usr/local/spark
bin/run-example SparkPi > text
cat text

过滤后的运行结果如图所示，可以得到π的近似值：

编程要求

在右侧命令行中配置好Scala环境后点击评测即可。提示：平台已经将解压包下载并放在/data/bigfile/目录下了，不需要再从网络下载。

开始你的任务吧，祝你成功！

文章标签：

分布式计算

Spark

Hadoop

Apache

大数据

关键词：

apache spark安装

安装apache spark

真题OK撒

目录

相关文章

阿甘兄

|

分布式计算 Linux Spark

179 Spark集群安装

179 Spark集群安装

阿甘兄

81 0 0

热烈的马

|

9月前

|

消息中间件分布式计算大数据

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装（图文解释超详细）

热烈的马

442 0 0

小竹笋

|

8月前

|

分布式计算 Shell Linux

Spark-集群安装、部署、启动、测试（1.6.3）稳定版

Spark-集群安装、部署、启动、测试（1.6.3）稳定版

小竹笋

83 0 0

yuanzhengme

|

9月前

|

分布式计算 Hadoop Scala

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

yuanzhengme

339 0 0

yuanzhengme

|

9月前

|

分布式计算 Spark

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

yuanzhengme

99 1 1

这啥名啊

|

9月前

|

分布式计算资源调度 Java

Hadoop学习笔记（HDP）-Part.17 安装Spark2

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

130 0 0

Hadoop学习笔记（HDP）-Part.17 安装Spark2

是Yu欸

|

分布式计算 Java Apache

window环境下安装spark

window环境下安装spark

是Yu欸

770 0 0

LeoATLiang

|

分布式计算 Hadoop Linux

基于Linux的Spark安装与环境配置

基于Linux的Spark安装与环境配置

LeoATLiang

727 0 0

小杰911

|

JSON 分布式计算大数据

【大数据学习篇5】 Spark安装实验

【大数据学习篇5】 Spark安装实验

小杰911

169 0 0

余二五

|

分布式计算 UED Spark

轻松搞定Spark安装

余二五

1166 0 0

热门文章

最新文章

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark 与 MapReduce 的 Shuffle 的区别？

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

【赵渝强老师】Spark的容错机制：检查点

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

Hadoop大数据平台实战(05)：深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s

Spark SQL性能优化

云栖社区2019年1月技术活动：PG， Java，Spark等30+场预告【持续更新】

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

阿里云 EMR Serverless Spark 版开启免费公测

Spark的一些问题汇总及 Yarn与Spark架构的对比

Spark编程实验四：Spark Streaming编程

Spark Streaming

Spark编程实验三：Spark SQL编程

Spark编程实验二：RDD编程初级实践

Spark编程实验一：Spark和Hadoop的安装使用

Spark环境搭建和使用方法

Spark分布式内存计算框架

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型