五十、Spark组件部署(MINI版)

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 五十、Spark组件部署(MINI版)

前景连接:


Hadoop HA部署(MINI版)https://blog.csdn.net/m0_54925305/article/details/121566611?spm=1001.2014.3001.5501

https://blog.csdn.net/m0_54925305/article/details/121566611?spm=1001.2014.3001.5501


环境准备:


编号

主机名 类型 用户 密码

1

master1-1 主节点 root passwd

2

slave1-1 从节点 root passwd

3

slave1-2 从节点 root passwd

scala-2.11.8.tgz


spark-2.0.0-bin-hadoop2.7.tgz


       注:提取码均为:0000


环境部署:


一、需前置 Hadoop 环境,并检查 Hadoop 环境是否可用,截图并保存结果


       1、使用 jps 命令查看集群状态


80.png


81.png

82.png



二、解压 scala 安装包到“/usr/local/src”路径下,并更名为 scala,截图并保存结果


       1、进入/h3cu/目录下找到压缩包


cd /h3cu/

83.png


       2、解压scala


tar -zxvf scala-2.11.8.tgz -C /usr/local/src

       3、重命名scala


mv scala-2.11.8 scala

84.png


三、 设置 scala 环境变量,并使环境变量只对当前用户生效,截图并保存结果


       1、添加scala环境变量


vi /root/.bashrc

85.png


        2、使环境变量立即生效


source /root/.bashrc


四、进入 scala 并截图,截图并保存结果


       1、输入命令 scala  进入scala界面


86.png


五、解压 Spark 安装包到“/usr/local/src”路径下,并更名为 spark,截图并保存结果


       1、退出scala界面


使用ctrl + c 键退出scala界面


87.png


       2、进入/h3cu/目录找到Spark


cd /h3cu/

88.png

       3、解压Spark


tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local/src/

       4、重命名Spark


mv spark-2.0.0-bin-hadoop2.7 spark

89.png


六、设置 Spark 环境变量,并使环境变量只对当前用户生效,截图并保存结果


       1、添加Spark环境变量


vi /root/.bashrc

90.png


       2、使环境变量立即生效


source /root/.bashrc

七、修改 Spark 参数配置,指定 Spark slave 节点,截图并保存结果


       1、进入/usr/local/src/spark/conf目录


cd /usr/local/src/spark/conf

       2、新建slaves文件并写入


vi slaves

91.png


       注:该文件内容不可多无用空格或其他字符,严格遵守规范


       3、新建spark-env.sh文件并写入


vi spark-env.sh
export JAVA_HOME=/usr/local/src/jdk1.8.0_221
export HADOOP_HOME=/usr/local/hadoop
export SCALA_HOME=/usr/local/src/scala
export SPARK_MASTER_IP=master1-1
export SPARK_MASTER_PORT=7077
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_YARN_USER_ENV="CLASSPATH=/usr/local/hadoop/etc/hadoop"
export YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master1-1:2181,slave1-1:2181,slave1-2:2181 -Dspark.deploy.zookeeper.dir=/spark"

92.png

       注:其中,三个参数的意义分别为: SPARK_DIST_CLASSPATH 是完成 spark 和 hadoop 的挂接,HADOOP_CONF_DIR 是说明了 hadoop 相关配置信息的目录, SPARK_MASTER_IP 是指明该集群中主节点的 IP 地址或者名称


       4、集群分发


scp -r /usr/local/src/spark slave1-1:/usr/local/src/
scp -r /usr/local/src/spark slave1-2:/usr/local/src/
scp -r /root/.bashrc slave1-1:/root/.bashrc
scp -r /root/.bashrc slave1-2:/root/.bashrc

       5、确保所有机器环境变量已经生效


source /root/.bashrc

       注:三台机器均需执行


八、启动 Spark,并使用命令查看 webUI 结果,截图并保存结果


       1、进入spark安装目录下启动spark


sbin/start-all.sh

        注:确保zookeeper已经正常启动


93.png


94.png


95.png


       2、浏览器输入master1-1:8080查看web UI


96.png


       3、slave端启动master


sbin/start-master.sh

97.png


       注:通过观察可知,主节点的 Master 状态为活动状态,从节点的Master状态为备用状态,即为集群成功运行


Spark组件部署(MINI版)完成


相关实践学习
基于MSE实现微服务的全链路灰度
通过本场景的实验操作,您将了解并实现在线业务的微服务全链路灰度能力。
相关文章
|
7月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
244 0
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
85 2
|
4月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
282 3
|
1月前
|
SQL 机器学习/深度学习 分布式计算
【赵渝强老师】Spark生态圈组件
本文介绍了Spark的生态圈体系架构,包括其核心执行引擎Spark Core、结构化数据处理模块Spark SQL、实时数据流处理模块Spark Streaming,以及机器学习框架MLlib和图计算框架GraphX。文中通过图片和视频详细解析了各模块的功能及访问接口。
|
4月前
|
SQL 分布式计算 监控
|
5月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
144 3
|
6月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
71 0
|
分布式计算 大数据 Spark
基于Docker搭建大数据集群(四)Spark部署
基于Docker搭建大数据集群(四)Spark部署
|
7月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
216 1
|
分布式计算 资源调度 监控
Spark Yarn模式部署集群
Spark Yarn模式部署集群
87 1