Spark 环境搭建_配置 HistoryServer|学习笔记

简介: 快速学习 Spark 环境搭建_配置 HistoryServer

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段Spark 环境搭建_配置 HistoryServer】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11940


Spark 环境搭建_配置 HistoryServer

已经下载过 spark,并且把它上传到的服务器当中,并且也已经解压过了,也已经给他拷贝到对应的这个文件夹当中了,修改过 spark ,因为配置过这个 JDK 的路径了,接下来,还会有一些小的配置, History Server 也是需要来进行配置的。

第一件:

修改配置文件 Slaves

第二件:

配置一下 HistoryServer

为什么要修改配置文件 slaves?

可以想象一下,Spark 的集群,往往规模是比较大的,几十上百,几百上千都有可能,Hadoop 现在也基本上能支持到万级的这个节点,所以,这个 spark 的这个规模可能也会比较大,如果是这样的话,就有一个很严重的问题,来看一下看一张图,

image.png

假如这个集群里面有五台机器,一台是 master ,四台是 worker ,么要去启动这个集群的时候,么要 SSH 登记的 master,然后,再登记每一个 worker 来去分别启动这些机器上的对应的进程。

比如说在 master 当中,要启动 master 进程,在 worker 当中要启动 worker 进程么,假如说有几百台机器,启动就会费时费力

一键启动脚本:

让我们直接在 master 当中再启动 master 的同时启动所有的从节点,包括前面的应该是做过配置的好。

的原理是在 master 当中使用一个程序,可以登录到每一个 worker 当中,在worker 当中启动对应的进程, master 对应的 worker 在哪,这时要去配置 slaves 文件,进入的 shell 工具当中,去查看 conf 目录,稍等重启一下窗口,进入到的 export,然后进入到 serverspark 当中,再继续往下进进到 conf 目录下 ,先去删掉 Slaves 文件,这个时候,删掉这个文件以后,去查看一下。

现在去配置从节点的位置,在这个目录当中发现 slaves .template 目录,这样的一个文件。所以,第一步应该把 slaves template 给它拷贝出来一份叫做 slaves,把 template  给去掉然后可以去修改这个 slaves ,知道 master 有多少个从节点,这个时,能看到,只有一行叫做 localhost,需要进行一些简单的配置,取决于是否希望在 master 节点里面去启动这个一个 worker 进程,

image.png

如果希望在 master 节点里面也启动 worker 进程,可以写上 master 的这个节点名字,Master 的 house 的地址,如果不希望就不写就可以,现在是有三个从节点,一个在 Node01上,一个在 Node02上,一个在 Node03上,保存并且退出,完成第一步配置。

Historyserver 的配置:

history server是做什么用的?

spark 它是一个即用即走的一个工具,就是去运行一个spark的程序,运行完了,可能没有办法去查看这个运行的这个结果,运行的这个状态,中间的过程等等这样的一些图标,就看不到了,如果还希望看到的话,要去配置一个历史的这个服务,在历史服务当中可以查看历史的这个信息。这就是  historyserver 。

如果要去配置一个黑色 solo 的话,那么第一步就应该先去配置,把整个 spark 的 log 要给打到的 HDFS 当中,因为只有放在 HHDFS 当中它才是稳定的才是可以共享的,所以,这是第一步要做的事情。

第二步

去修改一下 spark 的这个运行的就是这个参数,那要在参数当中,首先指定 historyserver 的端口地址,然后,还要去指定的 HDFS 的一个位置,一个地址。

如上是两个部分的设置,然后接下来,既然已经配置了 HDFS 当中的一个路径。

第三步

还要再去配置,一再在要在这个 HDFS 当中去创建这个目录,所以,就来配置 historyserver ,并且做第一步的配置,先去修改这个 spark- default 的一个文件,在其中增加这样的三行。

image.png

进入 shell 客户端,然后 LS 查看一下,也能发现有一个叫做

spark.default. conf. Template ,要去修改一个 spark default 的配置。

首先把它复制出来,然后把后面的 template 去掉,default 把 template 去掉,去修改这个 sparkdefault.conf 文件,在其中可以去增加很多内容的,在最后把刚才拷贝的内容粘贴过来,粘贴过来以后,查看一下没有任何问题。

image.png

首先 eventlog 收集事件日志。然后给 true ,然后收集到 HDFS 的某一个路径,接下来压缩也就 OK,把它拷贝过来以后,这个保存并且退出,第一步的配置就做完了。

第二步进入到笔记当中,应该再去修改一下 spark 的运行的一个参数。

向其中也配置一下,也是 HDFS 的这个日志的这个路径,可以利用这个路径来去启动 historyserve ,在前面的这个配置,是让 spark 把日志写到 HDFS 当中,后面的这个运行的这个配置是在启动 historyserver 的时候,去HDFS的路径去读,所以一个是写,一个是读,两个东西都要配好,先拷贝一下这个配置,然后进入到我们的客户端当中 ,LS 查看一下现在要配置,Vi spark-env.sh 。

image.png

然后找到我们的这个配置的位置,然后在这个地方拷贝我们刚才的这个内容,检查一下是否问题,点击OK,这个时候配置就已经结束了,保存并且退出。

在 HDFS 上去创建这个目录,接下来拷贝一下创建目录的这个命令,首先就是  hdfs dfs -mkdir ,如果这个路径不存在,就 -p去创建它,那么去拷贝一下这个路径,然后复制执行,

image.png

没有问题,整个的这一部分的配置就完成了。

相关文章
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
39 0
|
6月前
|
分布式计算 Java Hadoop
Spark环境搭建和使用方法
Spark环境搭建和使用方法
589 1
|
6月前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置,报错如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
6月前
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
264 0
|
6月前
|
分布式计算 Ubuntu Java
Spark环境搭建与使用
Spark环境搭建与使用
70 0
|
6月前
|
分布式计算 Hadoop Spark
Spark环境搭建和使用方法
Spark环境搭建和使用方法
71 1
|
分布式计算 Java Scala
配置spark,并在idea中搭建项目
配置spark,并在idea中搭建项目
137 0
|
SQL 分布式计算 Hadoop
配置Hive使用Spark执行引擎
在Hive中,可以通过配置来指定使用不同的执行引擎。Hive执行引擎包括:默认MR、tez、spark。
272 0
|
存储 SQL 分布式计算
Spark配置参数调优
1.配置多个executor        在项目中,由于数据量为几百万甚至千万级别,如果一个executor装载的对象过多,会导致GC很慢。项目中,我们使一个worker节点执行app时启动多个executor,从而加大并发度,解决full GC慢的问题。
1554 0
|
16天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
48 2
ClickHouse与大数据生态集成:Spark & Flink 实战

相关实验场景

更多