六十二、Spark-Standlone独立集群(上传HDFS进行测试)

简介: Spark官网:(https://spark.apache.org/)

20.png

环境配置


主机名 master slave1 slave2
类型 master slave slave
角色
master

worker

worker

一、解压更名


       1、解压Scala


tar -zxvf scala-2.11.8.tgz -C /usr/local/

       2、重命名


mv scala-2.11.8 scala

       3、解压Spark


tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz -C /usr/local

       4、重命名Spark


mv spark-2.0.0-bin-hadoop2.7 spark


二、配置环境变量


     

1、添加环境变量


vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

       2、使环境变量立即生效


source /etc/profile


三、配置Spark参数


     

1、配置slaves/workers


cd /usr/local/spark/conf

       2、修改配置文件名称


mv slaves.template slaves

       3、编辑slaves文件


vim slaves
slave1
slave2

       4、修改配置文件名称


mv spark-env.sh.template spark-env.sh

       5、编辑配置文件


vim spark-env.sh
## 设置JAVA安装目录
JAVA_HOME=/usr/local/jdk1.8.0_221
## HADOOP软件配置文件目录,读取HDFS上文件和运行Spark在YARN集群时需要,先提前配上
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop
## 指定spark老大Master的IP和提交任务的通信端口
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

       6、集群分发


scp -r /usr/local/spark/ slave1:/usr/local/
scp -r /usr/local/spark/ slave2:/usr/local/


四、环境测试


       1、启动Spark集群


sbin/start-all.sh

       2、jps查看进程


21.png


       注:前置Hadoop集群已经启动


       3、查看WebUI


22.png


       注:此时状态为活跃状态



五、提交任务


       1、启动spark-shell


23.png


       2、提交WordCount任务


A、创建wordcount.txt文件


vim wordcount.txt

24.png


B、上传文件到 hdfs 方便 worker 读取


hadoop fs -put /input/wordcount.txt /input/wordcount.txt

C、hdfs 查看


25.png


D、提交任务


val textFile = sc.textFile("hdfs://master:8020/input/wordcount.txt")
val counts = textFile.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _)
counts.collect
counts.saveAsTextFile("hdfs://master:8020/output/output1")

26.png


六、结果查看


master:50070

27.png

        注:将运行结果保存在 hdfs



七、查看spark任务web-ui


 
         
master:4040

28.png

八、停止集群



sbin/stop-all.sh

29.png


☆☆☆standalone模式下的模块架构☆☆☆


Client 客户端进程,负责提交作业到Master

Client就是我们的客户端,例如我们在windows上通过 idea 编写Scala程序向Spark提交作业,那么我们的Client就是 idea

Master Standalone模式中主节点,负责接收Client提交的作业,管理Worker,并命令Worker启动Driver和Executor。

Master在这里就相当于一个公司的包工头,负责接收Client提交上来的作业,然后管理Worker。

Worker Standalone模式中的从节点,负责管理本节点的资源,定期向Master汇报心跳,接受Master的命令,启动Driver和Executor。


相关文章
|
3月前
|
人工智能 测试技术 芯片
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
本文介绍了使用四块Framework主板构建AI推理集群的过程,并基于AMD Ryzen AI Max+ 395处理器进行大语言模型推理性能测试,重点评估其并行推理能力及集群表现。
264 0
AMD Ryzen AI Max+ 395四机并联:大语言模型集群推理深度测试
|
8月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
10月前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
281 4
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
139 0
|
存储 SQL 分布式计算
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
153 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
134 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
114 0
|
5月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
272 0