Spark框架在CentOS下部署搭建

简介: Spark框架在CentOS下部署搭建

前言


本人大三大数据专业,配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装 。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql。现在进行Spark的一个安装以及环境配置。


提示:以下是本篇文章正文内容,下面案例可供参考


一、解决兼容问题


首先不同版本的Spark会和之前配置的Hbase或者是Hadoop,Python产生版本不兼容的问题。这个可以根据自己之前安装程序的版本来自行选择相应的版本下载或者更新配置文件。这里给出与Hive兼容版本:


2021031816415068.png


可以进入local(安装)目录查看自己Hive版本:

20210318165753200.png


我的版本是2.3.7的就选择2.0.0版本滴,省的发生一系列兼容问题比较折磨。


二、获取Spark


Spark官网:


https://spark.apache.org/downloads.html


选择自己的版本:

20210318171457636.png

2.4.7一样能用。

放入虚拟机


20210318190347488.png


三、配置Spark环境变量


JDK版本需要在1.8版本以上,没升级的可以先升级一波:JDK1.8安装(Linux系统)

20210318190452691.png

同时也需要安装scala,官网下载地址:https://www.scala-lang.org/download/2.11.12.html


20210318193927476.png


解压:


tar zxvf spark-2.4.7-bin-hadoop2.6.tgz spark-2.4.7


修改名字:


mv spark-2.4.7-bin-hadoop2.6.tgz spark-2.4.7


移动到用户本地目录:


mv spark-2.4.7 /usr/local


移动到conf目录下配置env:


cd /usr/local/spark-2.4.7/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

修改配置内容:


export JAVA_HOME=/usr/java/defaul
export SCALA_HOME=/usr/local/scala-2.11.12
export HADOOP_CONF_DIR=/usr/lib/hadoop/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKEY_INSTANCES=1
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoop1:9000/spark-logs"

20210318202010548.png

20210318202032786.png

SPARK_MASTER_PORT为Spark主节的端口号。


配置slaves文件:


cp slaves.template slaves
vi slaves

我的从者是:


hadoop2
hadoop3


配置spark-default.conf:


cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
spark.eventLog.enabled true
spark.eventLog.dir hdfs://master:9000/spark-logs
spark.eventLog.compress true

image.png


在主节点把配置好的Spark目录复制到从节点上:


scp -r /usr/local/spark2.4.7 hadoop2:/usr/local
scp -r /usr/local/spark2.4.7 hadoop3:/usr/local


创建spark-logs目录:


hdfs dfs -mkdir /spark-logs

配置一下profile的spark路径:


export SPARK_HOME=/usr/local/spark2.4.7
export PATH=$PATH:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin


进入spark的sbin目录启动Spark集群:


./start-all.sh


20210318205227860.png


(注process information unavailabele,没问题具体看jps查看进程出现process information unavailable)

20210318205440797.png


我们可以进浏览器看看:

20210318205620426.png


./start-history-server.sh


20210318213924478.png

目录
相关文章
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
74 2
|
3月前
|
监控 前端开发 Linux
centos7系统安装部署zabbix5.0
【9月更文挑战第23天】在CentOS 7系统上部署Zabbix 5.0的步骤包括:安装MariaDB数据库及必要软件包,配置Zabbix仓库,设置数据库并导入Zabbix数据库架构,配置Zabbix服务器与前端参数,启动相关服务,并通过浏览器访问Web界面完成安装向导。
203 0
|
4月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
271 3
|
24天前
|
Oracle 关系型数据库 MySQL
Centos7下图形化部署单点KFS同步工具并将Oracle增量同步到KES
Centos7下图形化部署单点KFS同步工具并将Oracle增量同步到KES
Centos7下图形化部署单点KFS同步工具并将Oracle增量同步到KES
|
3月前
|
Oracle Java 关系型数据库
CentOS 7.6操作系统部署JDK实战案例
这篇文章介绍了在CentOS 7.6操作系统上通过多种方式部署JDK的详细步骤,包括使用yum安装openjdk、基于rpm包和二进制包安装Oracle JDK,并提供了配置环境变量的方法。
293 80
|
2月前
|
存储 Linux 开发者
虚拟机centos7.9一键部署docker
本文介绍了如何在 CentOS 7.9 虚拟机上安装 Docker 社区版 (Docker-ce-20.10.20)。通过使用阿里云镜像源,利用 `wget` 下载并配置 Docker-ce 的 YUM 仓库文件,然后通过 `yum` 命令完成安装。安装后,通过 `systemctl` 设置 Docker 开机自启并启动 Docker 服务。最后,使用 `docker version` 验证安装成功,并展示了客户端与服务器的版本信息。文中还提供了列出所有可用 Docker-ce 版本的命令。
229 0
虚拟机centos7.9一键部署docker
|
3月前
|
存储 Kubernetes 负载均衡
CentOS 7.9二进制部署K8S 1.28.3+集群实战
本文详细介绍了在CentOS 7.9上通过二进制方式部署Kubernetes 1.28.3+集群的全过程,包括环境准备、组件安装、证书生成、高可用配置以及网络插件部署等关键步骤。
588 3
CentOS 7.9二进制部署K8S 1.28.3+集群实战
|
3月前
|
Linux pouch 容器
CentOS7部署阿里巴巴开源的pouch容器管理工具实战
关于如何在CentOS 7.6操作系统上安装和使用阿里巴巴开源的Pouch容器管理工具的实战教程。
136 2
CentOS7部署阿里巴巴开源的pouch容器管理工具实战
|
4月前
|
机器学习/深度学习 文字识别 Linux
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
99 1
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 基于 Paddle Serving快速使用(服务化部署 - CentOS 7)
|
3月前
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
145 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇