【Spark】(二)Spark2.3.4 集群分布式安装

简介: 【Spark】(二)Spark2.3.4 集群分布式安装

文章目录


一、下载Spark安装包

二、安装准备

三、Spark安装

四、启动Spark

五、验证


一、下载Spark安装包


从官网下载:http://spark.apache.org/downloads.html


20200103102116959.png


二、安装准备


以下安装都可以参照以前的环境搭建博客:


1、Java8安装成功


2、zookeeper安装成功


3、hadoop2.6.0 HA安装成功


4、Scala安装成功(不安装进程也可以启动)


三、Spark安装


20200103102814326.png


1、上传并解压缩 spark-2.3.4-bin-hadoop2.6.tgz


2、移动到 /opt/soft/spark234 目录下

[root@zj1 opt]# mv spark-2.3.4-bin-hadoop2.6 soft/spark234


3、进入spark/conf修改配置文件


(1)进入配置文件所在目录

[root@zj1 opt]# cd soft/spark234/conf/


(2)复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容

[root@zj1 conf  ]# cp spark-env.sh.template spark-env.sh
export SPARK_MASTER_HOST=192.168.56.137  #主节点IP
export SPARK_MASTER_PORT=7077  #任务提交端口
export SPARK_WORKER_CORES=2  #每个worker使用2核
export SPARK_WORKER_MEMORY=3g  #每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=7979  #修改spark监视窗口的端口默认8080


(3)复制slaves.template成slaves (配置worker节点)

[root@zj1 conf]# cp slaves.template slaves


加入两个workder节点名,如果搭建伪分布式的,这里写localhost 即可

hadoop1
hadoop2
hadoop3


(4)修改sbin下spark-config.sh

export JAVA_HOME=/opt/soft/jdk180
# 这是我jdk的路径


(5)将安装包分发给其他节点

[root@zj1 conf]# scp -r /opt/soft/spark234/ root@zj2:/opt/soft/
[root@zj1 conf]# scp -r /opt/soft/spark234/ root@zj3:/opt/soft/


四、启动Spark


20200103111257458.png


2020010311131197.png


五、验证


查看Web界面Master状态


20200103111524490.png

目录
相关文章
|
3月前
|
存储 负载均衡 NoSQL
【赵渝强老师】Redis Cluster分布式集群
Redis Cluster是Redis的分布式存储解决方案,通过哈希槽(slot)实现数据分片,支持水平扩展,具备高可用性和负载均衡能力,适用于大规模数据场景。
317 2
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
8月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
709 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
8月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
8月前
|
SQL 分布式计算 关系型数据库
基于云服务器的数仓搭建-hive/spark安装
本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括: - **MySQL本地安装**:详细描述了内存占用情况及安装步骤,涉及安装脚本的编写与执行,以及连接MySQL的方法。 - **Hive安装**:涵盖了从上传压缩包到配置环境变量的全过程,并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**:说明了如何安装Spark并将其与Hive集成,确保Hive任务由Spark执行,同时解决了依赖冲突问题。 - **常见问题及解决方法**:列举了安装过程中可能遇到的问题及其解决方案,如内存配置不足、节点间通信问题等。
基于云服务器的数仓搭建-hive/spark安装
|
10月前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
11月前
|
存储 SpringCloudAlibaba Java
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论。
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
|
3月前
|
存储 缓存 NoSQL
【📕分布式锁通关指南 12】源码剖析redisson如何利用Redis数据结构实现Semaphore和CountDownLatch
本文解析 Redisson 如何通过 Redis 实现分布式信号量(RSemaphore)与倒数闩(RCountDownLatch),利用 Lua 脚本与原子操作保障分布式环境下的同步控制,帮助开发者更好地理解其原理与应用。
253 6
|
4月前
|
存储 缓存 NoSQL
Redis核心数据结构与分布式锁实现详解
Redis 是高性能键值数据库,支持多种数据结构,如字符串、列表、集合、哈希、有序集合等,广泛用于缓存、消息队列和实时数据处理。本文详解其核心数据结构及分布式锁实现,帮助开发者提升系统性能与并发控制能力。

热门文章

最新文章

下一篇
oss云网关配置