Centos7 搭建单机Spark分布式集群

简介: Centos7 搭建单机Spark分布式集群

1. JDK Hadoop Spark安装与配置


1.1 解压包


官网下载jdk、hadoop、sprak对应的包,注意版本


tar -zxvf jdk-8u241-linux-x64.tar.gz
tar -zxvf hadoop-3.2.2.tar.gz     
tar -zxvf spark-3.2.0-bin-hadoop3.2.taz 



1.2 配置环境变量


添加配置,注意文件路径以及文件名


vim /root/.bashrc


export JAVA_HOME=/root/ClassWork/jdk1.8.0_241
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin
export HADOOP_HOME=/root/ClassWork/hadoop-3.2.2
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath --glob):$CLASSPATH
export SPARK_HOME="/root/ClassWork/spark-3.2.0-bin-hadoop3.2"
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH 



使配置生效


source /root/.bashrc


2. Scala安装与配置


2.1 Scala安装


wget http://www.scala-lang.org/files/archive/scala-2.11.8.tgz


tar -zxf scala-2.11.8.tgz


2.2 配置环境变量


添加配置


vim /root/.bashrc


export SCALA_HOME=/root/ClassWork/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin
source /root/.bashrc


使配置生效


source /root/.bashrc


3. 配置集群


3.1 配置sprak


进入sprak的conf文件夹


把spark-env.sh.template复制一份spark-env.sh


cp spark-env.sh.template spark-env.sh


vim spark-env.sh


加入以下配置,注意目录以及版本号,对应上面第1步下载的版本


export JAVA_HOME=/home/hadoop/jdk1.8.0_241
export SCALA_HOME=/home/hadoop/scala-2.11.8
export HADOOP_HOME=/home/hadoop/hadoop-3.2.2
export SPARK_HOME=/home/hadoop/spark-3.2.0-bin-hadoop3.2
export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077



3.2 启动spark


进入hadoop安装目录,启动hadoop


/sbin/start-all.sh



在进入spark安装目录,启动spark


/sbin/start-all.sh



然后输入jps,看到了进程,说明已经启动了spark




4. 问题:虚拟机能运行,本机却不行?


原因:Centos防火墙拦截了端口


解决方法2选1


4.1 关闭Centos防火墙


查看防火墙状态


systemctl status firewalld.service


看到绿色字样标注的“active(running)”,说明防火墙是开启状态



停止防火墙


systemctl stop firewalld


4.2 如果不关闭防火墙,则开放端口


查看已开放的端口


firewall-cmd --list-ports


开放端口(上面配置的端口)


firewall-cmd --zone=public --add-port=8080/tcp --permanent


重启防火墙


firewall-cmd --reload


解决


目录
相关文章
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4天前
|
XML 分布式计算 Hadoop
分布式系统详解--框架(Hadoop-单机版搭建)
分布式系统详解--框架(Hadoop-单机版搭建)
22 0
分布式系统详解--框架(Hadoop-单机版搭建)
|
25天前
|
分布式计算 Hadoop 大数据
分布式计算框架比较:Hadoop、Spark 与 Flink
【5月更文挑战第31天】Hadoop是大数据处理的开创性框架,专注于大规模批量数据处理,具有高扩展性和容错性。然而,它在实时任务上表现不足。以下是一个简单的Hadoop MapReduce的WordCount程序示例,展示如何统计文本中单词出现次数。
76 0
|
20天前
|
存储 缓存 NoSQL
了解Redis,第一弹,什么是RedisRedis主要适用于分布式系统,用来用缓存,存储数据,在内存中存储那么为什么说是分布式呢?什么叫分布式什么是单机架构微服务架构微服务的本质
了解Redis,第一弹,什么是RedisRedis主要适用于分布式系统,用来用缓存,存储数据,在内存中存储那么为什么说是分布式呢?什么叫分布式什么是单机架构微服务架构微服务的本质
|
1月前
|
SQL 分布式计算 Hadoop
Spark分布式内存计算框架
Spark分布式内存计算框架
57 0
|
1月前
|
存储 分布式数据库
GaussDB分布式与单机模式的比较
【4月更文挑战第7天】GaussDB分布式与单机模式的比较
1812 5
|
1月前
|
存储 分布式计算 资源调度
centos 部署Hadoop-3.0-高性能集群(二)
centos 部署Hadoop-3.0-高性能集群(二)
29 0
centos 部署Hadoop-3.0-高性能集群(二)
|
1月前
|
负载均衡 监控 Linux
CentOS6.5高可用集群LVS+Keepalived(DR模式)
CentOS6.5高可用集群LVS+Keepalived(DR模式)
|
1月前
|
分布式计算 Hadoop Scala
Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版(安装+配置+测试案例)
67 0
|
1月前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
57 0