【Deepin 20系统】Linux 系统安装Spark教程及使用

简介: 在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。

系统:Deepin 系统 Debian内核

1 安装Java JDK

查看是否安装了java环境

java -version

如果没有安装

安装方法:https://zhuanlan.zhihu.com/p/343227137

2 下载安装包

清华镜像下载,快速:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/

解压命令

tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz

把解压缩的文件夹spark-2.4.8-bin-hadoop2.7重命名为spark

3 配置环境

(1)配置文件vim spark-env.sh

cd spark/conf

mv spark-env.sh.template spark-env.sh

修改配置文件vim spark-env.sh

Java_HOME根据自己的电脑安装路径去配置

export JAVA_HOME=/usr/java/jdk1.8.0_201-amd64

export SPARK_MASTER_HOST=192.168.86.134

export SPARK_MASTER_PORT=7077

(2)配置配置slaves

mv slaves.template slaves

vim slaves

添加:

Worker的IP,根据自己的需要来添加

(3)配置环境变量:

修改配置文件:

vim /etc/profile

增加以下内容:

export SPARK_HOME=spark安装路径

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

export PATH= P A T H : PATH: PATH:SPARK_HOME/sbin

刷新:

source /etc/profile

4 启动和关闭

(1)启动主节点:

start-master.sh

(2)启动从节点:

start-slaves.sh

(3)启动shell:

spark-shell

(4)通过网页端查看:

http://localhost:8080/

Spark中内置有Tomcat,故端口号默认为8080

(5)关闭主节点:

stop-master.sh

(6)关闭从节点:

stop-slaves.sh

5 例子

进入spark安装位置, 然后进入spark中的 bin 文件夹

(1)运行: 输入:spark-shell开启spark(scala)

自己生成一个txt文件,放在根目录/1.txt

1 2 3 4 5 6

把输入文件加载进RDD:

val textFile = sc.textFile(“/1.txt”)

MapReduce操作,以work为key,1为value:

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

查看每个单词出现的次数

wordCounts.collect()

输出: Array[(String, Int)] = Array((6,1), (3,1), (4,1), (1,1), (5,1), (2,1))

(2)运行: ./bin/pyspark (python)

目录
相关文章
|
5天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
6天前
|
Ubuntu Linux Shell
Linux系统中如何查看磁盘情况
【9月更文挑战第3天】在Linux系统中,有多种方式查看磁盘情况。可通过命令行工具`df`查看文件系统磁盘使用情况,选项`-h`以人类可读格式显示,`-T`显示文件系统类型;`du`命令显示目录或文件磁盘使用情况,`-h`以人类可读格式显示,`-s`仅显示总计;`fdisk -l`列出磁盘和分区信息。此外,图形界面的磁盘管理工具和文件管理器也可用于查看磁盘使用情况。这些方法有助于更好地管理磁盘空间。
|
6天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
2天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
3天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
3天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
4天前
|
Linux Shell
Linux系统
是对Linux系统进行管理的命令。对于Linux系统来说,无论是中央处理器、内存、磁盘驱动器、键盘、鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似。linux命令在系统中有两种类型:内置Shell命令和Linux命令。
|
4月前
|
缓存 Linux 测试技术
安装【银河麒麟V10】linux系统--并挂载镜像
安装【银河麒麟V10】linux系统--并挂载镜像
1148 0
|
4月前
|
关系型数据库 MySQL Linux
卸载、下载、安装mysql(Linux系统centos7)
卸载、下载、安装mysql(Linux系统centos7)
188 0
|
2月前
|
Linux 虚拟化 数据安全/隐私保护
部署05-VMwareWorkstation中安装CentOS7 Linux操作系统, VMware部署CentOS系统第一步,下载Linux系统,/不要忘, CentOS -7-x86_64-DVD
部署05-VMwareWorkstation中安装CentOS7 Linux操作系统, VMware部署CentOS系统第一步,下载Linux系统,/不要忘, CentOS -7-x86_64-DVD