【Deepin 20系统】Linux 系统安装Spark教程及使用

简介: 在Deepin 20系统上安装和使用Apache Spark的详细教程,包括安装Java JDK、下载和解压Spark安装包、配置环境变量和Spark配置文件、启动和关闭Spark集群的步骤,以及使用Spark Shell和PySpark进行简单操作的示例。

系统:Deepin 系统 Debian内核

1 安装Java JDK

查看是否安装了java环境

java -version

如果没有安装

安装方法:https://zhuanlan.zhihu.com/p/343227137

2 下载安装包

清华镜像下载,快速:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/

解压命令

tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz

把解压缩的文件夹spark-2.4.8-bin-hadoop2.7重命名为spark

3 配置环境

(1)配置文件vim spark-env.sh

cd spark/conf

mv spark-env.sh.template spark-env.sh

修改配置文件vim spark-env.sh

Java_HOME根据自己的电脑安装路径去配置

export JAVA_HOME=/usr/java/jdk1.8.0_201-amd64

export SPARK_MASTER_HOST=192.168.86.134

export SPARK_MASTER_PORT=7077

(2)配置配置slaves

mv slaves.template slaves

vim slaves

添加:

Worker的IP,根据自己的需要来添加

(3)配置环境变量:

修改配置文件:

vim /etc/profile

增加以下内容:

export SPARK_HOME=spark安装路径

export PATH= P A T H : PATH: PATH:SPARK_HOME/bin

export PATH= P A T H : PATH: PATH:SPARK_HOME/sbin

刷新:

source /etc/profile

4 启动和关闭

(1)启动主节点:

start-master.sh

(2)启动从节点:

start-slaves.sh

(3)启动shell:

spark-shell

(4)通过网页端查看:

http://localhost:8080/

Spark中内置有Tomcat,故端口号默认为8080

(5)关闭主节点:

stop-master.sh

(6)关闭从节点:

stop-slaves.sh

5 例子

进入spark安装位置, 然后进入spark中的 bin 文件夹

(1)运行: 输入:spark-shell开启spark(scala)

自己生成一个txt文件,放在根目录/1.txt

1 2 3 4 5 6

把输入文件加载进RDD:

val textFile = sc.textFile(“/1.txt”)

MapReduce操作,以work为key,1为value:

val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

查看每个单词出现的次数

wordCounts.collect()

输出: Array[(String, Int)] = Array((6,1), (3,1), (4,1), (1,1), (5,1), (2,1))

(2)运行: ./bin/pyspark (python)

目录
相关文章
|
3月前
|
弹性计算 安全 Linux
阿里云服务器ECS安装宝塔Linux面板、安装网站(新手图文教程)
本教程详解如何在阿里云服务器上安装宝塔Linux面板,涵盖ECS服务器手动安装步骤,包括系统准备、远程连接、安装命令执行、端口开放及LNMP环境部署,手把手引导用户快速搭建网站环境。
|
4月前
|
NoSQL 关系型数据库 Linux
ERPNext 搭建教程:Linux 一键部署与维护
ERPNext 是一款开源免费的企业资源计划系统,适用于中小企业信息化管理。基于 Python 和 Frappe 框架开发,支持财务、销售、人力、库存等模块,具备高度可定制性。本文介绍如何通过 Websoft9 在 Linux 下快速部署 ERPNext,并提供环境配置、系统维护等实用建议,适合开发者和企业用户快速上手。
585 7
ERPNext 搭建教程:Linux 一键部署与维护
|
4月前
|
Java Linux 网络安全
Linux云端服务器上部署Spring Boot应用的教程。
此流程涉及Linux命令行操作、系统服务管理及网络安全知识,需要管理员权限以进行配置和服务管理。务必在一个测试环境中验证所有步骤,确保一切配置正确无误后,再将应用部署到生产环境中。也可以使用如Ansible、Chef等配置管理工具来自动化部署过程,提升效率和可靠性。
456 13
|
3月前
|
Ubuntu 网络协议 Unix
Linux教程(Ubuntu为蓝本)之Linux介绍篇
SuSE嫁到了Novell,SCO继续顶着骂名四处强行“化缘”, Asianux, MandrakeSoft也在五年中首次宣布季度赢利。3月,SGI宣布成功实现了Linux操作系统支持256个Itanium 2处理器。[1-2]
|
3月前
|
Ubuntu Linux 数据安全/隐私保护
Win10安装Linux子系统教程!如何在Win10系统中安装Ubuntu!
登录系统后,输入cd /返回上一级,然后再输入“ls”查看一下系统文件目录,看看对不对!
|
5月前
|
Linux iOS开发 Docker
MyEMS开源系统安装之Linux/macOS上的DOcker
本指南详细介绍了如何在Linux/macOS上使用Docker部署MyEMS系统。主要内容包括:前置条件(如安装Docker、npm和MySQL),以及分步骤部署各个组件(如myems-api、myems-admin、myems-modbus-tcp等)。每个步骤涵盖源代码复制、环境配置、镜像构建、容器运行及日志管理等操作,并提供了多平台构建的支持。最后,指南还说明了默认端口和登录凭据,帮助用户快速启动并访问MyEMS的管理界面和Web界面。
164 1
|
5月前
|
关系型数据库 Linux 数据库
Linux系统安装Postgre和Postgis教程
本文详细介绍了PostgreSQL/PostGIS的卸载与安装步骤。卸载部分涵盖Docker、Yum/RPM及源码编译安装的清理方法,包括停止服务、删除容器/包、清理残留文件和环境变量等操作,并强调卸载前需备份数据库数据。安装部分提供在线yum安装和离线源码编译两种方式,前者简单快捷,后者需准备依赖(如gcc、readline-devel等)、创建用户组、初始化数据库及配置访问规则。每步均附带命令示例,确保操作清晰明确。
724 0
|
缓存 Linux 测试技术
安装【银河麒麟V10】linux系统--并挂载镜像
安装【银河麒麟V10】linux系统--并挂载镜像
5591 0
|
关系型数据库 MySQL Linux
卸载、下载、安装mysql(Linux系统centos7)
卸载、下载、安装mysql(Linux系统centos7)
435 0