Spark Yarn模式部署集群

简介: Spark Yarn模式部署集群

1 安装地址

http://archive.apache.org/dist/spark/spark-2.4.0/

2 解压安装

tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz

2.1 配置Linux环境变量

#spark
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

source /etc/profile

export SPARK_MASTER_IP=192.168.99.129
export JAVA_HOME=/usr/local/jdk1.8.0_171/
export SCALA_HOME=/home/csu/scala-2.11.8/

2.2 scala环境配置

tar -zxvf scala-2.11.8.tgz

2.3 配置spark-env.sh环境变量

vim spark-env.sh

chmod 777 spark-env.sh

2.4 配置slaves文件

cp slaves.template slaves

slave0
slave1

2.5 将安装好的Spark复制到Slave

执行scp -r ~/spark-2.4.0-bin-hadoop2.7 slave0:~/命令,将Master上的Spark安装目录复制到Slave和Slave 1

3 启动并验证Spark

在Master上,进入Spark安装目录,执行“sbin/start-all.sh”命令即可启动Spark。

读者可能注意到,启动Spark的命令与启动Hadoop的命令一样,都是“start-all.sh”。但是,当用户明确指定目录时,就可以区分这两个不同的命令了。由于这里已经进入了Spark的安装目录,并且在“start-all.sh”前面加上了“sbin”,这就确保了执行的是启动Spark的命令;如果没有“sbin”目录的限制,而是简单地使用“start-all.sh”,则是启动Hadoop的命令。

启动后,我们可以通过“jps”命令查看Master和Slave上Spark的进程,可以看到,在Master上增加了一个Master进程,它就是Spark的主控进程。

Slave0上的Spark的Worker进程

我们也可以通过Spark提供的Web接口查看系统状态。打开Master(也可以是任何其他节点)上的浏览器,在地址栏输入“http://master:8080”,可看到的监控界面。


http://192.168.99.129:8080/


95b1211f210c4e659f0c5539f5249044.png

要退出Spark,可以在进入Spark安装目录后执行“sbin/stop-all.sh”命令。


stop-all.sh

目录
相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
148 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
14天前
|
分布式计算 资源调度 Hadoop
Spark Standalone与YARN的区别?
本文详细解析了 Apache Spark 的两种常见部署模式:Standalone 和 YARN。Standalone 模式自带轻量级集群管理服务,适合小规模集群;YARN 模式与 Hadoop 生态系统集成,适合大规模生产环境。文章通过示例代码展示了如何在两种模式下运行 Spark 应用程序,并总结了两者的优缺点,帮助读者根据需求选择合适的部署模式。
40 3
|
1月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
75 5
|
1月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
36 4
|
1月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
149 5
|
1月前
|
分布式计算 资源调度 Hadoop
Spark Standalone与YARN的区别?
【10月更文挑战第5天】随着大数据处理需求的增长,Apache Spark 成为了广泛采用的大数据处理框架。本文详细解析了 Spark Standalone 与 YARN 两种常见部署模式的区别,并通过示例代码展示了如何在不同模式下运行 Spark 应用程序。Standalone 模式自带轻量级集群管理,适合小规模集群或独立部署;YARN 则作为外部资源管理器,能够与 Hadoop 生态系统中的其他应用共享资源,更适合大规模生产环境。文章对比了两者的资源管理、部署灵活性、扩展性和集成能力,帮助读者根据需求选择合适的部署模式。
24 1
|
1月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
86 4
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
76 4
|
1月前
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
90 0