【Deepin 20系统】Linux 系统安装Spark教程及使用

简介: 在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。

系统:Deepin 系统 Debian内核

1 安装Java JDK

查看是否安装了java环境

java -version

如果没有安装

安装方法:https://zhuanlan.zhihu.com/p/343227137

2 下载安装包

清华镜像下载,快速:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/

解压命令

tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz

把解压缩的文件夹spark-2.4.8-bin-hadoop2.7重命名为spark

3 配置环境

(1)配置文件vim spark-env.sh

cd spark/conf

mv spark-env.sh.template spark-env.sh

修改配置文件vim spark-env.sh

Java_HOME根据自己的电脑安装路径去配置

export JAVA_HOME=/usr/java/jdk1.8.0_201-amd64

export SPARK_MASTER_HOST=192.168.86.134

export SPARK_MASTER_PORT=7077

(2)配置配置slaves

mv slaves.template slaves

vim slaves

添加:

Worker的IP,根据自己的需要来添加

(3)配置环境变量:

修改配置文件:

vim /etc/profile

增加以下内容:

export SPARK_HOME=spark安装路径

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

export PATH= P A T H : PATH: PATH:SPARK_HOME/sbin

刷新:

source /etc/profile

4 启动和关闭

(1)启动主节点:

start-master.sh

(2)启动从节点:

start-slaves.sh

(3)启动shell:

spark-shell

(4)通过网页端查看:

http://localhost:8080/

Spark中内置有Tomcat,故端口号默认为8080

(5)关闭主节点:

stop-master.sh

(6)关闭从节点:

stop-slaves.sh

5 例子

进入spark安装位置, 然后进入spark中的 bin 文件夹

(1)运行: 输入:spark-shell开启spark(scala)

自己生成一个txt文件,放在根目录/1.txt

1 2 3 4 5 6

把输入文件加载进RDD:

val textFile = sc.textFile(“/1.txt”)

MapReduce操作,以work为key,1为value:

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

查看每个单词出现的次数

wordCounts.collect()

输出: Array[(String, Int)] = Array((6,1), (3,1), (4,1), (1,1), (5,1), (2,1))

(2)运行: ./bin/pyspark (python)

目录
相关文章
|
6月前
|
Ubuntu Linux Anolis
Linux系统禁用swap
本文介绍了在新版本Linux系统(如Ubuntu 20.04+、CentOS Stream、openEuler等)中禁用swap的两种方法。传统通过注释/etc/fstab中swap行的方式已失效,现需使用systemd管理swap.target服务或在/etc/fstab中添加noauto参数实现禁用。方法1通过屏蔽swap.target适用于新版系统,方法2通过修改fstab挂载选项更通用,兼容所有系统。
575 3
Linux系统禁用swap
|
6月前
|
Linux
Linux系统修改网卡名为eth0、eth1
在Linux系统中,可通过修改GRUB配置和创建Udev规则或使用systemd链接文件,将网卡名改为`eth0`、`eth1`等传统命名方式,适用于多种发行版并支持多网卡配置。
1088 3
|
Ubuntu Linux 网络安全
Linux系统初始化脚本
一款支持Rocky、CentOS、Ubuntu、Debian、openEuler等主流Linux发行版的系统初始化Shell脚本,涵盖网络配置、主机名设置、镜像源更换、安全加固等多项功能,适配单/双网卡环境,支持UEFI引导,提供多版本下载与持续更新。
680 3
Linux系统初始化脚本
|
6月前
|
安全 Linux Shell
Linux系统提权方式全面总结:从基础到高级攻防技术
本文全面总结Linux系统提权技术,涵盖权限体系、配置错误、漏洞利用、密码攻击等方法,帮助安全研究人员掌握攻防技术,提升系统防护能力。
740 1
|
6月前
|
监控 安全 Linux
Linux系统提权之计划任务(Cron Jobs)提权
在Linux系统中,计划任务(Cron Jobs)常用于定时执行脚本或命令。若配置不当,攻击者可利用其提权至root权限。常见漏洞包括可写的Cron脚本、目录、通配符注入及PATH变量劫持。攻击者通过修改脚本、创建恶意任务或注入命令实现提权。系统管理员应遵循最小权限原则、使用绝对路径、避免通配符、设置安全PATH并定期审计,以防范此类攻击。
1216 1
|
6月前
|
Linux 应用服务中间件 Shell
二、Linux文本处理与文件操作核心命令
熟悉了Linux的基本“行走”后,就该拿起真正的“工具”干活了。用grep这个“放大镜”在文件里搜索内容,用find这个“探测器”在系统中寻找文件,再用tar把东西打包带走。最关键的是要学会使用管道符|,它像一条流水线,能把这些命令串联起来,让简单工具组合出强大的功能,比如 ps -ef | grep 'nginx' 就能快速找出nginx进程。
752 1
二、Linux文本处理与文件操作核心命令
|
6月前
|
Linux
linux命令—stat
`stat` 是 Linux 系统中用于查看文件或文件系统详细状态信息的命令。相比 `ls -l`,它提供更全面的信息,包括文件大小、权限、所有者、时间戳(最后访问、修改、状态变更时间)、inode 号、设备信息等。其常用选项包括 `-f` 查看文件系统状态、`-t` 以简洁格式输出、`-L` 跟踪符号链接,以及 `-c` 或 `--format` 自定义输出格式。通过这些选项,用户可以灵活获取所需信息,适用于系统调试、权限检查、磁盘管理等场景。
443 137
|
6月前
|
安全 Ubuntu Unix
一、初识 Linux 与基本命令
玩转Linux命令行,就像探索一座新城市。首先要熟悉它的“地图”,也就是/根目录下/etc(放配置)、/home(住家)这些核心区域。然后掌握几个“生存口令”:用ls看周围,cd去别处,mkdir建新房,cp/mv搬东西,再用cat或tail看文件内容。最后,别忘了随时按Tab键,它能帮你自动补全命令和路径,是提高效率的第一神器。
1172 58
|
5月前
|
存储 安全 Linux
Linux卡在emergency mode怎么办?xfs_repair 命令轻松解决
Linux虚拟机遇紧急模式?别慌!多因磁盘挂载失败。本文教你通过日志定位问题,用`xfs_repair`等工具修复文件系统,三步快速恢复。掌握查日志、修磁盘、验重启,轻松应对紧急模式,保障系统稳定运行。
1035 2