spark伪分布部署

简介: spark伪分布部署

一、 任务描述

本实验任务主要完成基于ubuntu环境的Spark伪分布部署、配置和调试工作。通过完成本实验任务,要求学生熟练掌握Spark伪分布部署方法,为后续实验的开展奠定Spark平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、 任务目标

掌握Spark伪分布环境的搭建配置


三、 任务环境

本次环境是:Ubuntu16.04 所需root密码为simpleware-ssh


四、 任务分析

spark有以下几种安装模式,每种安装模式都有自己不同的优点和长处。

 local(本地模式):

常用于本地开发测试,本地还分为local单线程和local-cluster多线程;

 standalone(集群模式):

典型的Mater/slave模式,Master可能有单点故障的;Spark支持ZooKeeper来实现 HA。

 on yarn(集群模式):

运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。

 on mesos(集群模式):

运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。

 on cloud(集群模式):

比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3。

 目前Apache Spark支持三种分布式部署方式,分别是standalone、Spark on mesos和 spark on YARN,在学习Spark编程的过程中,往往因机器资源有限而采用伪分布式部署来实现spark的运算。


♥ 知识链接

Standalone模式

 即独立模式,类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。


五、 任务实施

步骤1、解压缩

执行命令:cd /simple/soft进入soft目录,如图1所示:

9e591e4ad07e497bba8855305c738b6b.png



图片1 进入安装包目录


执行命令:ls查看spark安装包,如图2所示:


cd2e602ff995449e9ec096bd8e1edeb4.png


图片2 查看spark安装包


执行命令:tar -zxvf spark-2.0.1-bin-hadoop2.7.tgz -C /simple进行解压缩,如图3所示:

69d4b31bdef14dec96de0552a2268cb6.png



图片3 解压缩


进入simple目录,执行命令:ls查看spark解压后的文件夹并修改为简称,如图4所示:



c358c12c2bb94ea1bc2580d93b835748.png

图片4 重命名解压文件


修改spark环境变量,在任意目录下执行命令:vim ~/.bashrc编辑配置文件如图5所示:


c82cd01ff0104d36861de405e8baf48d.png


图片5 修改环境变量


环境变量配置文件生效,执行命令:source ~/.bashrc,如图6所示:

87d5e42e1b5446a0b410e3af082ef796.png



图片6 环境变量配置文件生效


步骤2、spark伪分布集群配置

切换至spark安装目录下的/simple/spark/conf文件并执行命令:ls查看所有配置文件,并重命名文件spark-env.sh.template和slaves.template为spark-env.sh和slaves文件,如图7所示:


a9e15af735fe4addaae42da4c643827b.png


图片7 重命名文件


配置spark-env.sh。在conf目录下执行命令:vim spark-env.sh并编辑其中内容,如图8所示:

8d70b65d0c0f44fb82b5097e8a05092e.png



图片8 添加环境变量


在spark目录下的sbin目录执行./start-all.sh启动spark服务,如图9所示:


d676fc0929ae4700a5b3887090367bf6.png


图片9 启动spark服务


集群启动是否成功,启动浏览器并输入地址,如图9所示,显示部署成功,如图10所示:


5925755a0e3a42d5ab72aaf4b5e4bd3b.png


图片10 访问集群


♥ 温馨提示

配置好环境变量后一定要执行使配置生效的命令;启动spark服务时要进入spark安装目录下的sbin目录执行./start-all.sh命令

1ba2e8e0ced944a5bb43d7a2bfaa0bb9.png

相关文章
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
67 2
|
3月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
260 3
|
3月前
|
SQL 分布式计算 监控
|
4月前
|
SQL 分布式计算 监控
在hue上部署spark作业
7月更文挑战第11天
131 3
|
5月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
66 0
|
分布式计算 大数据 Spark
基于Docker搭建大数据集群(四)Spark部署
基于Docker搭建大数据集群(四)Spark部署
|
6月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
203 1
|
分布式计算 资源调度 监控
Spark Yarn模式部署集群
Spark Yarn模式部署集群
85 1
|
分布式计算 资源调度 Java
大数据Spark部署模式DeployMode
大数据Spark部署模式DeployMode
177 0
|
分布式计算 Apache Spark
Apache Doris Spark Load快速体验之Spark部署(1)2
Apache Doris Spark Load快速体验之Spark部署(1)2
165 0

相关实验场景

更多
下一篇
无影云桌面