【Spark3.0.0-体验】温习源码解析-->体验安装测试

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 【Spark3.0.0-体验】温习源码解析-->体验安装测试

一、Spark3.0.0


1.1 注意事项


1.注意事项:spark对应hadoop的版本只有两种,一种2.7以上,一种3.2以上版本

2.spark3.0.0使用Scala2.12编译的

3.spark3.0.0下载地址:https://archive.apache.org/dist/spark/spark-3.0.0/


20201003151038101.png

1.2 安装节点信息部署

20201003103221941.png


二、Spark3.0.0-StandAlone


2.1 解压安装


tar -zxvf spark-3.0.0-bin-hadoop3.2 -C /root/apps/


cd conf 
mv spark-env.sh.template  spark-env.sh
mv slaves.template slaves
# 1.vi spark-env.sh
export JAVA_HOME=/usr/local/jdk-1.8.1_261/
export SPARK_MASTER_HOST=hadoop1
# 2.vi slaves【主节点配置就好,也就是启动节点,子节点不配置也好】
hadoop2
hadoop3
hadoop4
# 3.scp 集群
scp -r spark-3.0.0-bin-hadoop3.2 hadoop2:$PWD
scp -r spark-3.0.0-bin-hadoop3.2 hadoop3:$PWD
scp -r spark-3.0.0-bin-hadoop3.2 hadoop4:$PWD
或者写一个脚本循环:
for i in {2..4}; do scp -r spark-3.0.0-bin-hadoop3.2/  hadoop$i:PWD; done
# 4.启动集群
sbin/start-all.sh
# 5.访问节点
hadoop1:8080

20201003150609483.png


2.2【可选】配置Worker的CPU核数,内存

2020100315173036.png

# vi spark-env.sh
export  SPARK_WORKER_CORES=2
export  SPARK_WORKER_MEMORY=3g

三、Spark3.0.0-HA【非重点】


3.1 借助zookeeper


# 1.启动zookeeper
bin/zkServer.sh  start
# 2.查看有没有spark以前的节点信息,有的话删掉
bin/zkCli.sh
ls /
# 3.删掉spark目录
rmr  /spark

20201003153255611.png


3.2 【3台】修改配置文件


注释掉指定的主节点信息

# 1. vi  spark-env.sh
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop1:2181,hadoop2:2181,hadoop3:2181 -Dspark.deploy.zookeeper.dir=/spark"
# 2.主节点启动 一台主节点和所有的子节点
sbin/start-all.sh
# 3. 再hadoop2启动一台Master
sbin/start-master.sh
# 4.测试,杀掉haoop1,hadoop2就会上线成为Master[Active]

四、Spark-Shell


4.1 启动spark-shell【本机】


bin/spark-shell


20201003154931851.png


4.2 spark-shell【链接集群】


bin/spark-shell  --master  spark://hadoop1:7077

20201003155209683.png

image.png

image.png


4.3 提交Hadoop中的文本的单词计数

20201003155632477.png

scala>sc.textFile("hdfs://hadoop1:9000/data").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://hadoop1:9000/out-16")


2020100316021111.png

目录
相关文章
|
4天前
|
数据可视化 前端开发 测试技术
接口测试新选择:Postman替代方案全解析
在软件开发中,接口测试工具至关重要。Postman长期占据主导地位,但随着国产工具的崛起,越来越多开发者转向更适合中国市场的替代方案——Apifox。它不仅支持中英文切换、完全免费不限人数,还具备强大的可视化操作、自动生成文档和API调试功能,极大简化了开发流程。
|
1天前
|
运维 关系型数据库 MySQL
os-copilot安装_配置_功能测试全集
我是一位中级运维工程师,我平时工作会涉及到 各类服务器的 数据库 与 java环境配置 操作。 我顺利使用了OS Copilot的 -t -f | 功能,我的疑惑是不能在自动操作过程中直接给与脚本运行权限,必须需要自己运行一下 chmod 这个既然有了最高的权限,为什么就不能直接给与运行权限呢。 我认为 -t 功能有用,能解决后台运行基础命令操作。 我认为 -f 功能有用,可以通过task文件中撰写连续任务操作。 我认为 | 对文件理解上有很直接的解读,可以在理解新程序上有很大帮助。
124 83
|
2天前
|
弹性计算 运维 Ubuntu
os-copilot在Alibaba Cloud Linux镜像下的安装与功能测试
我顺利使用了OS Copilot的 -t -f 功能,我的疑惑是在换行的时候就直接进行提问了,每次只能写一个问题,没法连续换行更有逻辑的输入问题。 我认为 -t 管道 功能有用 ,能解决环境问题的连续性操作。 我认为 -f 管道 功能有用 ,可以单独创建可连续性提问的task问题。 我认为 | 对文件直接理解在新的服务器理解有很大的帮助。 此外,我还有建议 可以在非 co 的环境下也能进行连续性的提问。
25 7
|
26天前
|
存储 设计模式 算法
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配。行为型模式分为类行为模式和对象行为模式,前者采用继承机制来在类间分派行为,后者采用组合或聚合在对象间分配行为。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象行为模式比类行为模式具有更大的灵活性。 行为型模式分为: • 模板方法模式 • 策略模式 • 命令模式 • 职责链模式 • 状态模式 • 观察者模式 • 中介者模式 • 迭代器模式 • 访问者模式 • 备忘录模式 • 解释器模式
【23种设计模式·全精解析 | 行为型模式篇】11种行为型模式的结构概述、案例实现、优缺点、扩展对比、使用场景、源码解析
|
26天前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
结构型模式描述如何将类或对象按某种布局组成更大的结构。它分为类结构型模式和对象结构型模式,前者采用继承机制来组织接口和类,后者釆用组合或聚合来组合对象。由于组合关系或聚合关系比继承关系耦合度低,满足“合成复用原则”,所以对象结构型模式比类结构型模式具有更大的灵活性。 结构型模式分为以下 7 种: • 代理模式 • 适配器模式 • 装饰者模式 • 桥接模式 • 外观模式 • 组合模式 • 享元模式
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
|
26天前
|
设计模式 存储 安全
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
创建型模式的主要关注点是“怎样创建对象?”,它的主要特点是"将对象的创建与使用分离”。这样可以降低系统的耦合度,使用者不需要关注对象的创建细节。创建型模式分为5种:单例模式、工厂方法模式抽象工厂式、原型模式、建造者模式。
【23种设计模式·全精解析 | 创建型模式篇】5种创建型模式的结构概述、实现、优缺点、扩展、使用场景、源码解析
|
2天前
|
自然语言处理 数据处理 索引
mindspeed-llm源码解析(一)preprocess_data
mindspeed-llm是昇腾模型套件代码仓,原来叫"modelLink"。这篇文章带大家阅读一下数据处理脚本preprocess_data.py(基于1.0.0分支),数据处理是模型训练的第一步,经常会用到。
7 0
|
26天前
|
安全 搜索推荐 数据挖掘
陪玩系统源码开发流程解析,成品陪玩系统源码的优点
我们自主开发的多客陪玩系统源码,整合了市面上主流陪玩APP功能,支持二次开发。该系统适用于线上游戏陪玩、语音视频聊天、心理咨询等场景,提供用户注册管理、陪玩者资料库、预约匹配、实时通讯、支付结算、安全隐私保护、客户服务及数据分析等功能,打造综合性社交平台。随着互联网技术发展,陪玩系统正成为游戏爱好者的新宠,改变游戏体验并带来新的商业模式。
|
2月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
107 2
|
3月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
92 0

热门文章

最新文章

推荐镜像

更多