【Spark3.0.0-体验】温习源码解析-->体验安装测试

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 【Spark3.0.0-体验】温习源码解析-->体验安装测试

一、Spark3.0.0


1.1 注意事项


1.注意事项:spark对应hadoop的版本只有两种,一种2.7以上,一种3.2以上版本

2.spark3.0.0使用Scala2.12编译的

3.spark3.0.0下载地址:https://archive.apache.org/dist/spark/spark-3.0.0/


20201003151038101.png

1.2 安装节点信息部署

20201003103221941.png


二、Spark3.0.0-StandAlone


2.1 解压安装


tar -zxvf spark-3.0.0-bin-hadoop3.2 -C /root/apps/


cd conf 
mv spark-env.sh.template  spark-env.sh
mv slaves.template slaves
# 1.vi spark-env.sh
export JAVA_HOME=/usr/local/jdk-1.8.1_261/
export SPARK_MASTER_HOST=hadoop1
# 2.vi slaves【主节点配置就好,也就是启动节点,子节点不配置也好】
hadoop2
hadoop3
hadoop4
# 3.scp 集群
scp -r spark-3.0.0-bin-hadoop3.2 hadoop2:$PWD
scp -r spark-3.0.0-bin-hadoop3.2 hadoop3:$PWD
scp -r spark-3.0.0-bin-hadoop3.2 hadoop4:$PWD
或者写一个脚本循环:
for i in {2..4}; do scp -r spark-3.0.0-bin-hadoop3.2/  hadoop$i:PWD; done
# 4.启动集群
sbin/start-all.sh
# 5.访问节点
hadoop1:8080

20201003150609483.png


2.2【可选】配置Worker的CPU核数,内存

2020100315173036.png

# vi spark-env.sh
export  SPARK_WORKER_CORES=2
export  SPARK_WORKER_MEMORY=3g

三、Spark3.0.0-HA【非重点】


3.1 借助zookeeper


# 1.启动zookeeper
bin/zkServer.sh  start
# 2.查看有没有spark以前的节点信息,有的话删掉
bin/zkCli.sh
ls /
# 3.删掉spark目录
rmr  /spark

20201003153255611.png


3.2 【3台】修改配置文件


注释掉指定的主节点信息

# 1. vi  spark-env.sh
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop1:2181,hadoop2:2181,hadoop3:2181 -Dspark.deploy.zookeeper.dir=/spark"
# 2.主节点启动 一台主节点和所有的子节点
sbin/start-all.sh
# 3. 再hadoop2启动一台Master
sbin/start-master.sh
# 4.测试,杀掉haoop1,hadoop2就会上线成为Master[Active]

四、Spark-Shell


4.1 启动spark-shell【本机】


bin/spark-shell


20201003154931851.png


4.2 spark-shell【链接集群】


bin/spark-shell  --master  spark://hadoop1:7077

20201003155209683.png

image.png

image.png


4.3 提交Hadoop中的文本的单词计数

20201003155632477.png

scala>sc.textFile("hdfs://hadoop1:9000/data").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://hadoop1:9000/out-16")


2020100316021111.png

目录
相关文章
|
18天前
|
自然语言处理 机器人 Python
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
ChatPaper是一个基于文本生成技术的智能研究论文工具,能够根据用户输入进行智能回复和互动。它支持快速下载、阅读论文,并通过分析论文的关键信息帮助用户判断是否需要深入了解。用户可以通过命令行或网页界面操作,进行论文搜索、下载、总结等。
39 1
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
|
23天前
|
缓存 NoSQL Ubuntu
大数据-39 Redis 高并发分布式缓存 Ubuntu源码编译安装 云服务器 启动并测试 redis-server redis-cli
大数据-39 Redis 高并发分布式缓存 Ubuntu源码编译安装 云服务器 启动并测试 redis-server redis-cli
42 3
|
22天前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
36 1
|
27天前
|
前端开发 JavaScript 应用服务中间件
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
本文是一篇详细的教程,介绍了如何在Linux系统上安装和配置nginx,以及如何将打包好的前端项目(如Vue或React)上传和部署到服务器上,包括了常见的错误处理方法。
71 0
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
|
13天前
|
测试技术 PHP 开发工具
php性能监测模块XHProf安装与测试
【10月更文挑战第13天】php性能监测模块XHProf安装与测试
15 0
|
22天前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
33 0
|
22天前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
61 0
|
22天前
|
存储 SQL 分布式计算
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
33 0
|
2月前
|
安全 测试技术 Linux
CentOS7 安装vulhub漏洞测试环境
CentOS7 安装vulhub漏洞测试环境
62 0
|
2月前
|
Web App开发 Linux Python
linux上安装selenium环境及测试
该文章提供了在Linux CentOS上安装Selenium环境、Chrome浏览器及Chromedriver的详细步骤,并演示了如何以无头模式进行测试。
130 0

推荐镜像

更多