Spark集群环境搭建（standalone模式）

2023-05-30 688

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark集群环境搭建（standalone模式）

1. 实验室名称：

大数据实验教学系统

2. 实验项目名称：

Spark集群环境搭建（standalone模式）

3. 实验学时：

4. 实验原理：

spark有以下几种运行模式，每种运行模式都有自己不同的优点和长处。

name	Value
• local(本地模式)	常用于本地开发测试，本地还分为local单线程和local-cluster多线程;
• standalone(集群模式)	典型的Mater/slave模式，Master可能有单点故障的；Spark支持ZooKeeper来实现 HA。

• on yarn(集群模式)	运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算。
• on mesos(集群模式)	运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算。

5. 实验目的：

安装和配置Spark环境（standalone模式）

掌握Spark集群的启动和关闭。

6. 实验内容：

1、在master主节点上安装和配置Spark环境

2、将配置好的Spark文件夹拷贝到三个worker节点上

3、掌握Spark集群的启动和关闭

4、测试Spark集群安装是否成功。

7. 实验器材（设备、虚拟机名称）：

硬件：x86_64 ubuntu 16.04服务器

软件：JDK1.8，Spark-2.3.2，Hadoop-2.7.3

在本实验环境中，Spark安装包位于以下位置：/data/software/spark-2.3.2-bin-hadoop2.7.tgz

在本实验环境中，JDK已安装在以下位置：/opt/jdk

在本实验环境中，Hadoop已安装在以下位置：/opt/hadoop器

8. 实验步骤：

8.1 验证是否已经正确地安装了JDK

Spark程序运行在JVM之上，因此在安装Spark之前，要确保已经安装了JDK 8，并正确配置了环境变量。

启动一个终端窗口，键入如下的命令：

1.  $ java -version
2.  $ javac -version

如果在终端窗口中输出了JDK的版本号，说明已经安装好了JDK并正确配置了环境变量。否则，在继续后面的步骤之前，请先安装JDK并配置好环境变量。

8.2 验证是否已经正确地配置了SSH无密码登录

Spark集群要求从主节点到从节点的SSH无密码登录。

我们这里配置由三台机器组成的Spark集群。三台节点的设置如下：

1.  集群节点    IP地址            主机名
2.  主节点     192.168.0.2    master
3.  从节点1    192.168.0.3    slave1
4.  从节点2    192.168.0.4    slave2

在master节点上启动终端，分别输入以下命令，测试SSH配置：

1.  $ ssh master
2.  $ exit
3.      　
4.  $ ssh slave1
5.  $ exit
6.      　
7.  $ ssh slave2
8.  $ exit

如果均不需要输入密码即可连接，说明SSH无密登录配置正确，否则，在继续安装之前，请先检查从master到各个slave节点的SSH无密配置。

8.3 在master节点上安装Spark

在本实验环境中，Spark安装包位于以下位置：/data/software/spark-2.3.2-bin-hadoop2.7.tgz

在本实验环境中，JDK已经安装在了以下位置：/opt/jdk

请按以下步骤操作（在master节点上）：

1. 将安装包解压缩到/data/bigdata/目录下，并改名为spark-2.3.2。打开终端窗口，执行以下命令：

1.  $ cd /data/bigdata
2.  $ tar xvf /data/software/spark-2.3.2-bin-hadoop2.7.tgz
3.  $ mv spark-2.3.2-bin-hadoop2.7 spark-2.3.2

2. 配置系统环境变量。在终端窗口中，执行以下命令：

1.  $ cd
2.  $ vim /etc/profile

在打开的文件最后，添加如下内容：

1.  export SPARK_HOME=/data/bigdata/spark-2.3.2
2.  export PATH=$SPARK_HOME/bin:$PATH

然后保存文件并关闭。

2. 执行/etc/profile文件使得配置生效。在终端窗口中，执行以下命令：

1.  $ source /etc/profile

8.4 设置spark运行环境和配置参数

1. 在终端窗口中，执行如下的命令，进入到Spark的conf目录下：

1.  $ cd /data/bigdata/spark-2.3.2/conf

2. 打开spark-env.sh文件配置（默认没有，需拷贝模板文件并改名）。在终端窗口中，执行以下命令：

1.  $ cp spark-env.sh.template spark-env.sh
2.  $ vim spark-env.sh

3. 在打开的spark-env.sh文件中，加入以下内容，并保存：

1.  export JAVA_HOME=/opt/jdk
2.  export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop
3.  export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.7.3/bin/hadoop classpath)

5.5 同步Spark安装和配置

将配置好的spark拷贝到集群中每台机器的/data/bigdata/目录下。在master节点的终端窗口中，执行以下命令：

1.  $ cd /data/bigdata/
2.  $ scp -r spark-2.3.2 root@slave1:/data/bigdata/
3.  $ scp -r spark-2.3.2 root@slave2:/data/bigdata/

5.6 配置slaves

在运行Spark集群时，需要从master远程SSH连接各个worker节点，来启动worker节点上的相应进程。所以需要在master节点的spark的conf/slaves文件中指定worker节点的主机名或IP地址。

请在master节点上按以下步骤操作：

1. 在终端窗口中，键入执行以下命令，打开conf/slaves文件进行编辑：（默认没有，需拷贝模板文件并改名）

1.  $ cd /data/bigdata/spark-2.3.2/conf
2.  $ cp slaves.template slaves
3.  $ vim slaves

2. 在slaves文件中去掉localhost,并添加下面机器名(或IP地址)，每个节点一行，然后保存：

1.  master
2.  slave1
3.  slave2

8.7 测试spark

如果Spark不使用HDFS和YARN，那么就不用启动Hadoop也可以正常使用Spark。如果在使用Spark的过程中需要用到 HDFS，就要首先启动 Hadoop/HDFS。

1. 启动spark集群。在master节点的终端窗口下，执行如下命令：

1.  $ cd /data/bigdata/spark-2.3.2
2.  $ ./sbin/start-all.sh

2. 查看启动的进程。在master节点的终端窗口下，执行如下命令：

1.  $ jps

执行以上命令，在终端窗口中应该可以看到如下所示的进程：

42145 Master
42536 Jps
42270 Worker

由以上输出内容可以看出，Master和Worker就是Spark的主进程和工作进程。大家可以用SSH分别连接到worker01节点和worker02节点，使用jps命令查看在这两个节点上启动的worker进程。

3. 使用Web接口查看：打开浏览器，查看master Web UI: http://master:8080。可以看到类似下面这样的Web界面：

从上图中可以看到显示master url：”URL:spark://master:7077”。此外应该可以看到新的节点列表在那里，带有其CPU的数量和内存(减掉一个G留给OS)。

8.8 在Spark集群上执行Spark程序

接下来，我们在Spark集群上运行Spark自带的示例程序。在终端窗口中，执行以下命令：

1.  $ cd /data/bigdata/spark-2.3.2
2.  $ ./bin/run-example SparkPi

同时按下Shift+Enter，执行以上代码。执行时会输出很多运行信息，从中可以找到如下的输出结果：

Pi is roughly 3.140675703378517

由以上输出内容可以看出，我们的Spark集群运行正常。

8.9 关闭Spark集群：

最后，我们关闭Spark集群。在终端窗口中，执行以下命令：

1.  $ cd /data/bigdata/spark-2.3.2
2.  $ ./sbin/stop-all.sh
3.  $ jps

可以看到，Spark集群已经正确关闭了。

8.10 小结

为保证集群的稳定，请将各个节点的IP设为静态IP地址。Spark集群要求从master节点到各个worker节点的SSH无密码登录。

在启动Spark集群时，要先启动master节点，再启动workers节点；在关闭Spark集群时，要先关闭workers节点，再关闭master节点。

Spark集群的standalone部署模式，不要求启动Hadoop。但是在实际生产环境下，通常使用HDFS来存储海量数据，因此需要Spark读取HDFS上的数据，这时就需要在运行Spark程序之前，先启动Hadoop/HDFS。

9. 实验结果及分析：

实验结果运行准确，无误

10. 实验结论：

经过本节实验的学习，通过学习Spark集群环境搭建（standalone模式），进一步巩固了我们的Spark基础。

11. 总结及心得体会：

Spark集群环境搭建（standalone模式）：典型的Mater/slave模式，Master可能有单点故障的。

在安装Spark之前，要确保已经安装了JDK 8并正确地配置了环境变量。

Spark集群环境搭建（standalone模式）

1. 实验室名称：

2. 实验项目名称：

3. 实验学时：

4. 实验原理：

5. 实验目的：

6. 实验内容：

7. 实验器材（设备、虚拟机名称）：

8. 实验步骤：

8.1 验证是否已经正确地安装了JDK

8.2 验证是否已经正确地配置了SSH无密码登录

8.3 在master节点上安装Spark

8.4 设置spark运行环境和配置参数

5.5 同步Spark安装和配置

5.6 配置slaves

8.7 测试spark

8.8 在Spark集群上执行Spark程序

8.9 关闭Spark集群：

8.10 小结

9. 实验结果及分析：

10. 实验结论：

11. 总结及心得体会：

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark集群环境搭建（standalone模式）

1. 实验室名称：

2. 实验项目名称：

3. 实验学时：

4. 实验原理：

5. 实验目的：

6. 实验内容：

7. 实验器材（设备、虚拟机名称）：

8. 实验步骤：

8.1 验证是否已经正确地安装了JDK

8.2 验证是否已经正确地配置了SSH无密码登录

8.3 在master节点上安装Spark

8.4 设置spark运行环境和配置参数

5.5 同步Spark安装和配置

5.6 配置slaves

8.7 测试spark

8.8 在Spark集群上执行Spark程序

8.9 关闭Spark集群：

8.10 小结

9. 实验结果及分析：

10. 实验结论：

11. 总结及心得体会：

热门文章

最新文章

相关课程

相关电子书

相关实验场景