开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段:Spark 环境搭建_配置 HistoryServer】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/688/detail/11940
Spark 环境搭建_配置 HistoryServer
已经下载过 spark,并且把它上传到的服务器当中,并且也已经解压过了,也已经给他拷贝到对应的这个文件夹当中了,修改过 spark ,因为配置过这个 JDK 的路径了,接下来,还会有一些小的配置, History Server 也是需要来进行配置的。
第一件:
修改配置文件 Slaves
第二件:
配置一下 HistoryServer
为什么要修改配置文件 slaves?
可以想象一下,Spark 的集群,往往规模是比较大的,几十上百,几百上千都有可能,Hadoop 现在也基本上能支持到万级的这个节点,所以,这个 spark 的这个规模可能也会比较大,如果是这样的话,就有一个很严重的问题,来看一下看一张图,
假如这个集群里面有五台机器,一台是 master ,四台是 worker ,么要去启动这个集群的时候,么要 SSH 登记的 master,然后,再登记每一个 worker 来去分别启动这些机器上的对应的进程。
比如说在 master 当中,要启动 master 进程,在 worker 当中要启动 worker 进程么,假如说有几百台机器,启动就会费时费力
一键启动脚本:
让我们直接在 master 当中再启动 master 的同时启动所有的从节点,包括前面的应该是做过配置的好。
的原理是在 master 当中使用一个程序,可以登录到每一个 worker 当中,在worker 当中启动对应的进程, master 对应的 worker 在哪,这时要去配置 slaves 文件,进入的 shell 工具当中,去查看 conf 目录,稍等重启一下窗口,进入到的 export,然后进入到 serverspark 当中,再继续往下进进到 conf 目录下 ,先去删掉 Slaves 文件,这个时候,删掉这个文件以后,去查看一下。
现在去配置从节点的位置,在这个目录当中发现 slaves .template 目录,这样的一个文件。所以,第一步应该把 slaves template 给它拷贝出来一份叫做 slaves,把 template 给去掉然后可以去修改这个 slaves ,知道 master 有多少个从节点,这个时,能看到,只有一行叫做 localhost,需要进行一些简单的配置,取决于是否希望在 master 节点里面去启动这个一个 worker 进程,
如果希望在 master 节点里面也启动 worker 进程,可以写上 master 的这个节点名字,Master 的 house 的地址,如果不希望就不写就可以,现在是有三个从节点,一个在 Node01上,一个在 Node02上,一个在 Node03上,保存并且退出,完成第一步配置。
Historyserver 的配置:
history server是做什么用的?
spark 它是一个即用即走的一个工具,就是去运行一个spark的程序,运行完了,可能没有办法去查看这个运行的这个结果,运行的这个状态,中间的过程等等这样的一些图标,就看不到了,如果还希望看到的话,要去配置一个历史的这个服务,在历史服务当中可以查看历史的这个信息。这就是 historyserver 。
如果要去配置一个黑色 solo 的话,那么第一步就应该先去配置,把整个 spark 的 log 要给打到的 HDFS 当中,因为只有放在 HHDFS 当中它才是稳定的才是可以共享的,所以,这是第一步要做的事情。
第二步
去修改一下 spark 的这个运行的就是这个参数,那要在参数当中,首先指定 historyserver 的端口地址,然后,还要去指定的 HDFS 的一个位置,一个地址。
如上是两个部分的设置,然后接下来,既然已经配置了 HDFS 当中的一个路径。
第三步
还要再去配置,一再在要在这个 HDFS 当中去创建这个目录,所以,就来配置 historyserver ,并且做第一步的配置,先去修改这个 spark- default 的一个文件,在其中增加这样的三行。
进入 shell 客户端,然后 LS 查看一下,也能发现有一个叫做
spark.default. conf. Template ,要去修改一个 spark default 的配置。
首先把它复制出来,然后把后面的 template 去掉,default 把 template 去掉,去修改这个 sparkdefault.conf 文件,在其中可以去增加很多内容的,在最后把刚才拷贝的内容粘贴过来,粘贴过来以后,查看一下没有任何问题。
首先 eventlog 收集事件日志。然后给 true ,然后收集到 HDFS 的某一个路径,接下来压缩也就 OK,把它拷贝过来以后,这个保存并且退出,第一步的配置就做完了。
第二步进入到笔记当中,应该再去修改一下 spark 的运行的一个参数。
向其中也配置一下,也是 HDFS 的这个日志的这个路径,可以利用这个路径来去启动 historyserve ,在前面的这个配置,是让 spark 把日志写到 HDFS 当中,后面的这个运行的这个配置是在启动 historyserver 的时候,去HDFS的路径去读,所以一个是写,一个是读,两个东西都要配好,先拷贝一下这个配置,然后进入到我们的客户端当中 ,LS 查看一下现在要配置,Vi spark-env.sh 。
然后找到我们的这个配置的位置,然后在这个地方拷贝我们刚才的这个内容,检查一下是否问题,点击OK,这个时候配置就已经结束了,保存并且退出。
在 HDFS 上去创建这个目录,接下来拷贝一下创建目录的这个命令,首先就是 hdfs dfs -mkdir ,如果这个路径不存在,就 -p去创建它,那么去拷贝一下这个路径,然后复制执行,
没有问题,整个的这一部分的配置就完成了。