spark伪分布式集群搭建

简介: spark伪分布式集群搭建

1.设置共享文件夹


虚拟机-设置-选项-共享文件夹-添加共享文件夹



2.下载相关文件


2.1 进入share目录查看




2.2 下载相应文件压缩包到共享文件夹内




3.环境配置


3.1 解压文件


在/usr/目录下创建java 目录:


mkdir -p /usr/java


解压包:


tar -zxvf jdk-8u241-linux-x64.tar.gz  ###解压jdk
tar -zxvf hadoop-3.2.2.tar.gz     ###解压hadoop
tar -zxvf spark-3.2.0-bin-hadoop3.2.taz ###解压spark



将解压后得文件移动到java目录下:


mv jdk1.8.0_241/ /usr/java/
mv hadoop-3.2.2/ /usr/java/
mv spark-3.2.0/ /usr/java/



3.2 java环境安装配置


export JAVA_HOME=/usr/java/jdk1.8.0_241
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin



3.3 Hadoop环境安装配置


export HADOOP_HOME=/home/tools/hadoop-3.2.2
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath --glob):$CLASSPATH



3.4 Spark环境安装配置


export SPARK_HOME="/home/tools/spark-3.2.0-bin-hadoop3.2"
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH 
export MASTER=spark://192.168.101.104:7077



4.集群设置


4.1 集群配置


export SPARK_WORKER_INSTANCES=3
export CORES_PER_WORKER=1
export TOTAL_CORES=$((${CORES_PER_WORKER}*${SPARK_WORKER_INSTANCES}))
export PYTHONPATH=${SPARK_HOME}/python:${SPARK_HOME}/python/lib/py4j-0.10.7-src.zip
alias stop_all="stop-slave.sh;stop-master.sh"
alias start_all="start-master.sh;start-slave.sh -c $CORES_PER_WORKER -m 4G ${MASTER}"
#SPARK_WORKER_INSTANCES表示节点数目



4.2 设置环境生效


进入~/.zshrc添加source ~/.cshrc



source ~/.zshrc



4.3使用start_all启动节点


start_all



4.4 jps查看节点情况


jps



5.验证是否成功


8080是sparkwebUI的端口号,可以通过spark的配置文件修改


ip:8080   ### ip+端口号



6.附录(spark端口号)


8080:sparkwebUI的端口号


50070:HDFSwebUI的端口号


8485:journalnode默认的端口号


9000:非高可用访问数rpc端口


8020:高可用访问数据rpc


8088:yarn的webUI的端口号


8080:master的webUI,Tomcat的端口号


7077:spark基于standalone的提交任务的端口号


8081:worker的webUI的端口号


18080:historyServer的webUI的端口号


4040:application的webUI的端口号


2181:zookeeper的rpc端口号


9083:hive的metastore的端口号


60010:Hbase的webUI的端口号


6379:Redis的端口号


ebUI的端口号


18080:historyServer的webUI的端口号


4040:application的webUI的端口号


2181:zookeeper的rpc端口号


9083:hive的metastore的端口号


60010:Hbase的webUI的端口号


6379:Redis的端口号


9092:kafka broker的端口


相关文章
|
2月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
75 5
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
2月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
43 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
2月前
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
49 4
|
2月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
49 1
|
2月前
|
JSON 分布式计算 大数据
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
42 1
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
45 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
41 0
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
35 0
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
38 0

相关实验场景

更多