分布式集群环境之Spark的安装与配置(Centos7)

简介: 分布式集群环境之Spark的安装与配置(Centos7)

0x00 教程内容


  1. Spark的获取
  2. 上传Scala安装包到集群
  3. 安装与配置Scala

说明:安装Spark之前,请先安装Scala,参考文章:

1、分布式集群环境之Scala的安装与配置(Centos7)


0x01 Spark的获取


1. 官网下载

a. 为了统一,此处下载spark-2.2.0-bin-hadoop2.7.tgz版本:

https://archive.apache.org/dist/spark/

拉到下面,选择spark-2.2.0-bin-hadoop2.7.tgz进行下载(如果小版本好不一样也没关系)

2. 关注公众号:邵奈一


a. 回复spark获取


0x02 上传Spark安装包到集群


1. 上传安装包到虚拟机

a. 可以用XFtp软件上传到master(/home/hadoop-sny/software/),没有software目录就新建


image.png


0x03 安装与配置Spark


1. 解压Spark包并配置

a. 解压到指定目录~/bigdata/(-C ~/bigdata/,不加-C则解压到压缩包的路径)

tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C ~/bigdata/

b. 配置spark-env.sh

cd ~/bigdata/spark-2.2.0-bin-hadoop2.7/conf

cp spark-env.sh.template spark-env.sh

添加JAVA_HOME路径:

vi spark-env.sh

export JAVA_HOME=/usr/local/lib/jdk1.8.0_161


image.png


c. 配置slaves文件

cp slaves.template slaves

添加上从节点主机名:

vi slaves


slave1
slave2


image.png


2. 同步到slave1、slave2

a. 同步(因为我们的免密码登录是配了hadoop-sny用户的,所以root用户,还是要输入密码的)

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave1:~/bigdata

scp -r ~/bigdata/spark-2.2.0-bin-hadoop2.7 hadoop-sny@slave2:~/bigdata


3. 配置环境变量

a. 用master上的环境变量

vi ~/.bash_profile

c. 添加内容(此处我们可以指配到Home路径,因为sbin路径下有一些脚本是跟Hadoop的一样的,会冲突不起作用):


export SPARK_HOME=/home/hadoop-sny/bigdata/spark-2.2.0-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin


d. 使环境变量在当前会话生效(一定要记得执行)

source ~/.bash_profile

4. 启动Spark

a. 校验是否安装成功

$SPARK_HOME/sbin/start-all.sh

查看三个节点脚本请参考教程:大数据常用管理集群脚本集合


image.png


b. 查看Web UI界面

打开master:8080端口


image.png


0x04 Spark初体验


1. 启动spark-shell

a. 启动并测试一下

spark-shell --master spark://master:7077

1+1


image.png


0xFF 总结


请尝试将此教程的WordCount例子打包,并打包到服务器执行:

IntelliJ IDEA开发Spark案例之WordCount

请参考1.的教程,用spark-shell方式完成一个WordCount程序

注意:

a. 目前我只是启动了Spark,Hadoop并没有启动,如果有需要,请记得启动Hadoop等。

b. 如果是用集群模式启动Spark:spark-shell --master spark://master:7077,不能使用file:///来输入文件,要用HDFS,不然会报错。所以,如果想用file:///,则要把spark://master:7077去掉,默认使用本地。


相关文章
|
1月前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第16天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括配置系统源、安装 SQL Server 2019 软件包以及数据库初始化,确保 SQL Server 正常运行。
|
1月前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第8天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统准备、配置安装源、安装 SQL Server 软件包、运行安装程序、初始化数据库以及配置远程连接。通过这些步骤,您可以顺利地在 CentOS 系统上部署和使用 SQL Server 2019。
|
1月前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第7天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统要求检查与准备、配置安装源、安装 SQL Server 2019、配置 SQL Server 以及数据库初始化(可选)。通过这些步骤,你可以成功安装并初步配置 SQL Server 2019,进行简单的数据库操作。
|
1月前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,并与使用 RPM 包安装进行了对比。通过具体案例,读者可以了解如何准备环境、下载源码、编译安装、配置服务及登录 MySQL。编译源码安装虽然复杂,但提供了更高的定制性和灵活性,适用于需要高度定制的场景。
106 3
|
1月前
|
存储 安全 Linux
VMware安装CentOS7
【11月更文挑战第11天】本文详细介绍了在 VMware 中安装 CentOS 7 的步骤,包括准备工作、创建虚拟机、配置虚拟机硬件和安装 CentOS 7。具体步骤涵盖下载 CentOS 7 镜像文件、安装 VMware 软件、创建和配置虚拟机硬件、启动虚拟机并进行安装设置,最终完成 CentOS 7 的安装。在安装过程中,需注意合理设置磁盘分区、软件选择和网络配置,以确保系统的性能和功能满足需求。
208 0
|
2月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
|
4月前
|
NoSQL Redis
基于Redis的高可用分布式锁——RedLock
这篇文章介绍了基于Redis的高可用分布式锁RedLock的概念、工作流程、获取和释放锁的方法,以及RedLock相比单机锁在高可用性上的优势,同时指出了其在某些特殊场景下的不足,并提到了ZooKeeper作为另一种实现分布式锁的方案。
131 2
基于Redis的高可用分布式锁——RedLock
|
21天前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
58 5
|
24天前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
51 8
|
1月前
|
NoSQL Redis
Redis分布式锁如何实现 ?
Redis分布式锁通过SETNX指令实现,确保仅在键不存在时设置值。此机制用于控制多个线程对共享资源的访问,避免并发冲突。然而,实际应用中需解决死锁、锁超时、归一化、可重入及阻塞等问题,以确保系统的稳定性和可靠性。解决方案包括设置锁超时、引入Watch Dog机制、使用ThreadLocal绑定加解锁操作、实现计数器支持可重入锁以及采用自旋锁思想处理阻塞请求。
58 16