PySpark安装+Jupyter Notebook配置(Ubuntu 18.06)

简介: 学校一门Big Data Computing需要学习Spark in Python。这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

学校一门Big Data Computing需要学习Spark in Python。
这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。


Prerequisite

我的系统是:Ubuntu 18.06 LTS

  1. 已经装好了python2和3(如果没有可以看看这个链接)
  2. 装好了jupyter notebook,没有的话自行google吧
  3. 装了Java 8或更高版本的Java(没有,也可以看看这个链接)

PySpark Installation Steps

1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。

  1. 去到下载文件夹,将文件移到home目录下并解压
$ cd Downloads
$ mv spark-2.3.1-bin-hadoop2.7.tgz ~/
$ tar -zxf spark-2.3.1-bin-hadoop2.7.tgz
AI 代码解读

3.声明一下环境变量

$ sudo vim ~/.bashrc
AI 代码解读

在文件尾部添加

export SPARK_HOME=/home/usrname/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:/home/username/spark-2.3.1-bin-hadoop2.7/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH
AI 代码解读

重新运行一下刚刚修改的初始化文件

$ source ~/.bashrc
AI 代码解读

安装成功的话,输入pyspark

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.15rc1 (default, Apr 15 2018 21:51:34)
SparkSession available as 'spark'.
AI 代码解读

我看到StackOverflow上面说,现在也可以直接运行pip install pystark来安装,但是貌似没有特别好去配置你的环境变量.我的同学是用PyPI方法装的,现在开学第一周,也没瞧出什么区别,问了TA跟我说只要不影响你写project,什么安装方法都行。(吐槽一下:这什么鬼回答....)


PySpark in Jupyter

在Jupyter Notebook里运行PySpark有两种方法:

  1. 配置PySpark driver,当运行pyspark命令就直接自动打开一个Jupyter Notebook
  2. 正常启动Jupyter Notebook,然后用findSpark的package(我选了这种)

方法一:配置PySpark driver

~/.bashrc文件最后,添加配置PySpark driver的环境变量

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
AI 代码解读

同样,运行一下刚刚修改的初始化文件

$ source ~/.bashrc
AI 代码解读

最后,重启terminal

$ pyspark
AI 代码解读

这个时候,就会自动打开Jupyter Notebook。

方法二:用findSpark包

安装findspark:

$ pip install findspark
AI 代码解读

启动jupyter notebook

$ jupyter notebook
AI 代码解读

Jupyter Notebook运行效果

附上代码,大家运行感受一下:

#方法2需要复制这三行
import findspark
findspark.init()
import pyspark

#方法1直接从这里开始复制
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
AI 代码解读

Output:


img_1e714c182c488784193037d1ba9ad37c.png

实测,Python3的运行速度会比Python2的快很多,我不知道为什么我们TA跟我说用“Python 2 is better。”


常见问题(不断更新)

1.Python使用spark时出現版本不同的错误

import os
#for python 3
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#for python 2
os.environ["PYSPARK_PYTHON"]="/usr/bin/python"
AI 代码解读

我的电脑上的python的路径是/usr/bin/python,你可以运行where pythoncheck一下你的Python2的安装路径


参考链接

Get Started with PySpark and Jupyter Notebook in 3 Minutes

目录
相关文章
在Ubuntu上安装OpenVPN客户端
在 Linux 上安装并配置 OpenVPN 客户端,连接公司或服务器局域网。使用 `apt-get` 安装 OpenVPN,通过指定 `.ovpn` 配置文件启动客户端。若需,输入私钥密码。可执行 `ping` 命令测试网络连通性。
221 0
|
14天前
|
在Ubuntu 16.04上安装openjdk-6/7/8-jdk的步骤
在整个安装过程中,你可能需要管理员权限,因此你可能要使用 `sudo` 来获取必要的权限。记得做完每一个步骤后,都要检查输出,以确保没有发生错误,并且每项操作都成功完成。如果在安装过程中遇到问题,查看 `/var/log/` 下的日志文件对于问题的解决可能是有帮助的。
65 21
Kubernetes安装详细教程 Ubuntu版
本教程基于Ubuntu 22.04配置Kubernetes环境,涵盖依赖安装、swap关闭、内核参数调整、containerd与Kubernetes组件安装、集群初始化及CNI网络插件部署等内容,并提供常见问题处理方法和相关工具推荐。
|
19天前
|
在Ubuntu18.04安装兼容JDK 8的Eclipse集成开发环境的指南。
完成以上步骤后,您将在Ubuntu 18.04系统上成功安装并配置了Eclipse IDE,它将与JDK 8兼容,可以开始进行Java开发工作。如果遇到任何问题,请确保每一步骤都正确执行,并检查是否所有路径都与您的具体情况相匹配。
61 11
Loam在Ubuntu 18.04上的一站式安装指南
现在,你已经完成了Loam在Ubuntu 18.04上的一站式安装盛宴。从更新系统清洁,到搭建魔法环境的工作空间,再到召唤和激活Loam精髓的艺术——每步都妙不可言,每步都至关重要,让你在这场技术的饕餮盛宴中大显身手。
56 8
魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级
魔搭notebook在web IDE下,使用jupyter notebook,python扩展包无法更新升级,不升级无法使用,安装python扩展包的时候一直停留在installing
62 4
Windows中安装WSL 2和Ubuntu系统的教程
回看这一路,有趣吧?你已经跨界成为了一个Windows和Linux的桥梁。期待在代码的世界里,把一切玩得风生水起!
96 13
|
1月前
|
Linux环境下VSCode快速安装终极指南:debian/ubuntu/linux平台通用
以上就是在Linux环境下安装VSCode的终极指南,抛开繁复的专业词汇,以平易近人的文字、形象生动的比喻让你轻松学会这一过程。别忘了,你的小伙伴VSCode已经在应用菜单里等你了!
451 23