Spark集群搭建记录 | 云计算[CentOS7] | Spark配置

简介: 写在前面step1 Spark下载step2 修改环境变量~/.bashrc/etc/profilestep3 配置Master-文件修改slavesspark-env.shstep4 配置slave节点step5 集群启动step6 web浏览器状态查看step7 配置开机启动(可选)

写在前面


本系列文章索引以及一些默认好的条件在 传送门

要想完成Spark的配置,首先需要完成Hadoop的配置

Hadoop配置教程:链接

47b7a5fed238415bbf19f43a391d62ef.png

若未进行明确说明,均按照root用户操作


step1 Spark下载


下载链接

因为后续可能会涉及到很严重的版本问题,所以说在这里我们为了适配,选择2.4.0版本

8bf45dba14dc4f8881a5b355ad869e82.png

下载后放在master主机的/usr/local下

然后解压并改名:

cd /usr/local

tar -zxvf spark-2.4.0-bin-without-hadoop.tgz.gz

mv spark-2.4.0-bin-without-hadoop spark

最后改变拥有者为:root

chown -R root:root spark


step2 修改环境变量


配置文件修改请勿盲目CV,应根据自己实际情况确定


~/.bashrc


vim ~/.bashrc

加入:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export JAVA_LIBRARY_PATH=/usr/local/hadoop/lib/native


source一下使其生效

source ~/.bashrc


/etc/profile


vim /etc/profile

加入:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin


source /etc/profile


step3 配置Master-文件修改


slaves


cd /usr/local/spark/conf

cp slaves.template slaves

vim slaves

修改为:

slave1
slave2


博主去掉了里面的localhost


spark-env.sh


cp spark-env.sh.template spark-env.sh

vim spark-env.sh

配置文件修改请勿盲目CV,应根据自己实际情况确定

比如JAVA_HOME、SPARK_MASTER_IP

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_MASTER_IP= 这里要写上master的IP
export JAVA_HOME=/usr/java/jdk1.8.0_181-amd64
export HADOOP_HOME=/usr/local/hadoop
export SPARK_WORKER_MEMORY=1024m
export SPARK_WORKER_CORES=1


step4 配置slave节点


在主机操作:

cd /usr/local

tar -zcf spark.master.tar.gz spark

slave01-315是博主的slave主机名,请根据自身实际情况自行修改

scp spark.master.tar.gz slave01-315:/usr/local/spark.master.tar.gz

切换slave01-315机器进行操作:

cd /usr/local

tar -zxf spark.master.tar.gz

自行查看是否解压后文件夹名字为spark,如若不是请自行改名为spark

chown -R root /usr/local/spark

rm -rf spark.master.tar.gz


在主机操作:

cd /usr/local

slave02-315是博主的slave主机名,请根据自身实际情况自行修改

scp spark.master.tar.gz slave02-315:/usr/local/spark.master.tar.gz

切换slave02-315机器进行操作:

cd /usr/local

tar -zxf spark.master.tar.gz

自行查看是否解压后文件夹名字为spark,如若不是请自行改名为spark

chown -R root /usr/local/spark

rm -rf spark.master.tar.gz


step5 集群启动


在主机操作:

启动hadoop:

/usr/local/hadoop/sbin/start-all.sh

启动spark的Master

/usr/local/spark/sbin/start-master.sh

启动spark所有的slave

/usr/local/spark/sbin/start-slaves.sh

关闭集群只需要将start换成stop

step6 web浏览器状态查看


进入8080端口进行查看:

91e413f63ccb4667ae319accb4d78683.png


进入spark-shell:

e5b50d6fbd8b4e1b8127f8a9ea14e17d.png


然后进入web浏览器查看4040端口:

50e93bf8fa384d30934552cf46de1ada.png


step7 配置开机启动(可选)


vim /etc/rc.local

请根据自己实际情况添加,切勿满目CV

su - root -c /usr/local/hadoop/sbin/start-all.sh
su - root -c /usr/local/spark/sbin/start-master.sh
su - root -c /usr/local/spark/sbin/start-slaves.sh


到此,spark配置结束

下一篇(运行scala程序实现单词技术)已经实现择时更新~,敬请期待

到时你将看到:

ecb4c174b0da4f95bf0b249515363f5d.png


55d74689b9014c5083f16886b4410964.png


caa0d1ea79414668bce4a705c8e6a8c5.png


文章知识点与官方知识档案匹配,可进一步学习相关知识

CS入门技能树Linux环境安装安装CentOS3163 人正在系统学习中


目录
相关文章
|
4天前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
29 2
|
19天前
|
Java jenkins 持续交付
Centos7下docker的jenkins下载并配置jdk与maven
通过上述步骤,您将成功在CentOS 7上的Docker容器中部署了Jenkins,并配置好了JDK与Maven,为持续集成和自动化构建打下了坚实基础。
63 1
|
20天前
|
存储 监控 Linux
在 CentOS 7 中如何对新硬盘进行分区、格式化、挂载及配置最佳实践
本文详细介绍了在 CentOS 7 中如何对新硬盘进行分区、格式化、挂载及配置最佳实践,包括使用 `fdisk` 创建分区、`mkfs` 格式化分区、创建挂载点、编辑 `/etc/fstab` 实现永久挂载等步骤,旨在有效管理服务器磁盘空间,提高系统稳定性和可维护性。
23 1
|
21天前
|
安全 Linux 数据库连接
CentOS 7环境下DM8数据库的安装与配置
【10月更文挑战第16天】本文介绍了在 CentOS 7 环境下安装与配置达梦数据库(DM8)的详细步骤,包括安装前准备、创建安装用户、上传安装文件、解压并运行安装程序、初始化数据库实例、配置环境变量、启动数据库服务、配置数据库连接和参数、备份与恢复、以及安装后的安全设置、性能优化和定期维护等内容。通过这些步骤,可以顺利完成 DM8 的安装与配置。
137 0
|
25天前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
30 0
|
25天前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
27 0
|
25天前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
27 0
|
25天前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
34 0
|
3天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
17 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
25天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
53 0