分布式集群环境之Spark的安装与配置(Centos7)

简介: 分布式集群环境之Spark的安装与配置(Centos7)

0x00 教程内容


  1. Spark的获取
  2. 上传Scala安装包到集群
  3. 安装与配置Scala

说明:安装Spark之前,请先安装Scala,参考文章:

1、分布式集群环境之Scala的安装与配置(Centos7)


0x01 Spark的获取


1. 官网下载

a. 为了统一,此处下载spark-2.2.0-bin-hadoop2.7.tgz版本:

https://archive.apache.org/dist/spark/

拉到下面,选择spark-2.2.0-bin-hadoop2.7.tgz进行下载(如果小版本好不一样也没关系)

2. 关注公众号:邵奈一


a. 回复spark获取


0x02 上传Spark安装包到集群


1. 上传安装包到虚拟机

a. 可以用XFtp软件上传到master(/home/hadoop-sny/software/),没有software目录就新建


image.png


0x03 安装与配置Spark


1. 解压Spark包并配置

a. 解压到指定目录~/bigdata/(-C ~/bigdata/,不加-C则解压到压缩包的路径)

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata/

b. 配置spark-env.sh

cd ~/bigdata/spark-2.2.0-bin-hadoop2.7/conf

cp spark-env.sh.template spark-env.sh

添加JAVA_HOME路径:

vi spark-env.sh

export JAVA_HOME=/usr/local/lib/jdk1.8.0_161


image.png


c. 配置slaves文件

cp slaves.template slaves

添加上从节点主机名:

vi slaves


slave1
slave2


image.png


2. 同步到slave1、slave2

a. 同步(因为我们的免密码登录是配了hadoop-sny用户的,所以root用户,还是要输入密码的)

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave2:~/bigdata


3. 配置环境变量

a. 用master上的环境变量

vi ~/.bash_profile

c. 添加内容(此处我们可以指配到Home路径,因为sbin路径下有一些脚本是跟Hadoop的一样的,会冲突不起作用):


export SPARK_HOME=/home/hadoop-sny/bigdata/spark-2.2.0-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin


d. 使环境变量在当前会话生效(一定要记得执行)

source ~/.bash_profile

4. 启动Spark

a. 校验是否安装成功

$SPARK_HOME/sbin/start-all.sh

查看三个节点脚本请参考教程:大数据常用管理集群脚本集合


image.png


b. 查看Web UI界面

打开master:8080端口


image.png


0x04 Spark初体验


1. 启动spark-shell

a. 启动并测试一下

spark-shell --master spark://master:7077

1+1


image.png


0xFF 总结


请尝试将此教程的WordCount例子打包,并打包到服务器执行:

IntelliJ IDEA开发Spark案例之WordCount

请参考1.的教程,用spark-shell方式完成一个WordCount程序

注意:

a. 目前我只是启动了Spark,Hadoop并没有启动,如果有需要,请记得启动Hadoop等。

b. 如果是用集群模式启动Spark:spark-shell --master spark://master:7077,不能使用file:///来输入文件,要用HDFS,不然会报错。所以,如果想用file:///,则要把spark://master:7077去掉,默认使用本地。


相关文章
|
13天前
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
32 1
|
1月前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
14天前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
33 1
|
14天前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
22 1
|
14天前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
34 1
|
14天前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
34 1
|
1月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
34 5
|
1月前
|
存储 Kubernetes 负载均衡
CentOS 7.9二进制部署K8S 1.28.3+集群实战
本文详细介绍了在CentOS 7.9上通过二进制方式部署Kubernetes 1.28.3+集群的全过程,包括环境准备、组件安装、证书生成、高可用配置以及网络插件部署等关键步骤。
261 3
CentOS 7.9二进制部署K8S 1.28.3+集群实战
|
8天前
|
Kubernetes Ubuntu Linux
Centos7 搭建 kubernetes集群
本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
|
14天前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
34 0