【Spark】(二)Spark2.3.4 集群分布式安装

简介: 【Spark】(二)Spark2.3.4 集群分布式安装

文章目录


一、下载Spark安装包

二、安装准备

三、Spark安装

四、启动Spark

五、验证


一、下载Spark安装包


从官网下载:http://spark.apache.org/downloads.html


20200103102116959.png


二、安装准备


以下安装都可以参照以前的环境搭建博客:


1、Java8安装成功


2、zookeeper安装成功


3、hadoop2.6.0 HA安装成功


4、Scala安装成功(不安装进程也可以启动)


三、Spark安装


20200103102814326.png


1、上传并解压缩 spark-2.3.4-bin-hadoop2.6.tgz


2、移动到 /opt/soft/spark234 目录下

[root@zj1 opt]# mv spark-2.3.4-bin-hadoop2.6 soft/spark234


3、进入spark/conf修改配置文件


(1)进入配置文件所在目录

[root@zj1 opt]# cd soft/spark234/conf/


(2)复制spark-env.sh.template并重命名为spark-env.sh,并在文件最后添加配置内容

[root@zj1 conf  ]# cp spark-env.sh.template spark-env.sh
export SPARK_MASTER_HOST=192.168.56.137  #主节点IP
export SPARK_MASTER_PORT=7077  #任务提交端口
export SPARK_WORKER_CORES=2  #每个worker使用2核
export SPARK_WORKER_MEMORY=3g  #每个worker使用3g内存
export SPARK_MASTER_WEBUI_PORT=7979  #修改spark监视窗口的端口默认8080


(3)复制slaves.template成slaves (配置worker节点)

[root@zj1 conf]# cp slaves.template slaves


加入两个workder节点名,如果搭建伪分布式的,这里写localhost 即可

hadoop1
hadoop2
hadoop3


(4)修改sbin下spark-config.sh

export JAVA_HOME=/opt/soft/jdk180
# 这是我jdk的路径


(5)将安装包分发给其他节点

[root@zj1 conf]# scp -r /opt/soft/spark234/ root@zj2:/opt/soft/
[root@zj1 conf]# scp -r /opt/soft/spark234/ root@zj3:/opt/soft/


四、启动Spark


20200103111257458.png


2020010311131197.png


五、验证


查看Web界面Master状态


20200103111524490.png

目录
相关文章
|
22天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
26天前
|
存储 分布式计算 负载均衡
分布式计算模型和集群计算模型的区别
【10月更文挑战第18天】分布式计算模型和集群计算模型各有特点和优势,在实际应用中需要根据具体的需求和条件选择合适的计算架构模式,以达到最佳的计算效果和性能。
54 2
|
22天前
|
存储 监控 大数据
构建高可用性ClickHouse集群:从单节点到分布式
【10月更文挑战第26天】随着业务的不断增长,单一的数据存储解决方案可能无法满足日益增加的数据处理需求。在大数据时代,数据库的性能、可扩展性和稳定性成为企业关注的重点。ClickHouse 是一个用于联机分析处理(OLAP)的列式数据库管理系统(DBMS),以其卓越的查询性能和高吞吐量而闻名。本文将从我的个人角度出发,分享如何将单节点 ClickHouse 扩展为高可用性的分布式集群,以提升系统的稳定性和可靠性。
54 0
|
1月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
32 0
|
1月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
29 0
|
1月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
31 0
|
1月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
40 0
|
1月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
45 0
|
1月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
80 0
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
37 0

热门文章

最新文章

下一篇
无影云桌面