PySpark安装+Jupyter Notebook配置(Ubuntu 18.06)

简介: 学校一门Big Data Computing需要学习Spark in Python。这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

学校一门Big Data Computing需要学习Spark in Python。
这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。


Prerequisite

我的系统是:Ubuntu 18.06 LTS

  1. 已经装好了python2和3(如果没有可以看看这个链接)
  2. 装好了jupyter notebook,没有的话自行google吧
  3. 装了Java 8或更高版本的Java(没有,也可以看看这个链接)

PySpark Installation Steps

1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。

  1. 去到下载文件夹,将文件移到home目录下并解压
$ cd Downloads
$ mv spark-2.3.1-bin-hadoop2.7.tgz ~/
$ tar -zxf spark-2.3.1-bin-hadoop2.7.tgz

3.声明一下环境变量

$ sudo vim ~/.bashrc

在文件尾部添加

export SPARK_HOME=/home/usrname/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:/home/username/spark-2.3.1-bin-hadoop2.7/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH

重新运行一下刚刚修改的初始化文件

$ source ~/.bashrc

安装成功的话,输入pyspark

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.15rc1 (default, Apr 15 2018 21:51:34)
SparkSession available as 'spark'.

我看到StackOverflow上面说,现在也可以直接运行pip install pystark来安装,但是貌似没有特别好去配置你的环境变量.我的同学是用PyPI方法装的,现在开学第一周,也没瞧出什么区别,问了TA跟我说只要不影响你写project,什么安装方法都行。(吐槽一下:这什么鬼回答....)


PySpark in Jupyter

在Jupyter Notebook里运行PySpark有两种方法:

  1. 配置PySpark driver,当运行pyspark命令就直接自动打开一个Jupyter Notebook
  2. 正常启动Jupyter Notebook,然后用findSpark的package(我选了这种)

方法一:配置PySpark driver

~/.bashrc文件最后,添加配置PySpark driver的环境变量

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

同样,运行一下刚刚修改的初始化文件

$ source ~/.bashrc

最后,重启terminal

$ pyspark

这个时候,就会自动打开Jupyter Notebook。

方法二:用findSpark包

安装findspark:

$ pip install findspark

启动jupyter notebook

$ jupyter notebook

Jupyter Notebook运行效果

附上代码,大家运行感受一下:

#方法2需要复制这三行
import findspark
findspark.init()
import pyspark

#方法1直接从这里开始复制
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

Output:


img_1e714c182c488784193037d1ba9ad37c.png

实测,Python3的运行速度会比Python2的快很多,我不知道为什么我们TA跟我说用“Python 2 is better。”


常见问题(不断更新)

1.Python使用spark时出現版本不同的错误

import os
#for python 3
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#for python 2
os.environ["PYSPARK_PYTHON"]="/usr/bin/python"

我的电脑上的python的路径是/usr/bin/python,你可以运行where pythoncheck一下你的Python2的安装路径


参考链接

Get Started with PySpark and Jupyter Notebook in 3 Minutes

目录
相关文章
|
3天前
|
Ubuntu
在Ubuntu上安装JetBrains Toolbox并解决libfuse.so.2依赖问题
在Ubuntu上安装JetBrains Toolbox并解决libfuse.so.2依赖问题
9 3
|
4天前
|
消息中间件 Ubuntu 数据安全/隐私保护
Ubuntu上安装RabbitMQ
Ubuntu上安装RabbitMQ
8 1
|
4天前
|
Ubuntu Docker 容器
ubuntu安装docker
ubuntu安装docker
58 1
|
11天前
|
Ubuntu PHP Apache
蓝易云 - 如何在Ubuntu 22.04上安装PHP8.1并设置本地开发环境
以上就是在Ubuntu 22.04上安装PHP 8.1并设置本地开发环境的步骤。
19 2
|
12天前
|
缓存 Ubuntu 应用服务中间件
Ubuntu 22.04 上安装、配置和使用 Nginx 可以分为几个简单的步骤
Ubuntu 22.04 上安装、配置和使用 Nginx 可以分为几个简单的步骤
|
2天前
|
Ubuntu Linux
【问题复盘】在Ubuntu 20.04下安装OFED驱动 复盘:在Ubuntu 20.04下安装OFED驱动
整个问题主要是由于不同的内核版本导致文件路径不同,进而导致安装过程中某些库无法按预期安装而出现问题。 为什么使用最新的OFED驱动解决了问题呢?推测是最新驱动补充了之前缺失的某些文件,因此后续安装过程能够正常进行。 例如,在OFED 5.4中,某个安装所需的文件F位于A处,但安装程序却在B处查找该文件,导致报错。而在OFED 5.8中,该安装所需的文件F被移回到B处,此时不管去哪里查找都能找到文件F,因此安装可以正常进行。
|
4天前
|
Ubuntu 关系型数据库 MySQL
【MYSQL】ubuntu下安装数据库
【MYSQL】ubuntu下安装数据库
9 0
|
25天前
|
数据采集 机器学习/深度学习 数据可视化
使用Jupyter Notebook进行数据分析:入门与实践
【6月更文挑战第5天】Jupyter Notebook是数据科学家青睐的交互式计算环境,用于创建包含代码、方程、可视化和文本的文档。本文介绍了其基本用法和安装配置,通过一个数据分析案例展示了如何使用Notebook进行数据加载、清洗、预处理、探索、可视化以及建模。Notebook支持多种语言,提供直观的交互体验,便于结果呈现和分享。它是高效数据分析的得力工具,初学者可通过本文案例开始探索。
|
5天前
|
文字识别 异构计算 Python
关于云端Jupyter Notebook的使用过程与感想
在自学Python时,由于家庭电脑使用冲突和设备老旧,转向云端平台。体验了多个服务:1. 魔搭modelscope(最喜欢,赠送资源丰富,社区活跃),2. Colaboratory(免费GPU,但有时重启,建议用阿里云),3. Deepnote(免费环境有限,但GPT-4代码生成功能强大),4. 飞桨aistudio(适合PaddlePaddle用户),5. ModelArts(曾有免费实例,现难找)。综合来看,阿里云的稳定性与服务更优,尤其是魔搭的自动代码修正功能。对于AIGC,推荐魔搭和付费版PAI-DSW。欢迎分享更多云端Jupyter平台体验。
50 1
|
28天前
|
Python 数据挖掘 数据可视化
Python数据分析——Pandas与Jupyter Notebook
【6月更文挑战第1天】 本文探讨了如何使用Python的Pandas库和Jupyter Notebook进行数据分析。首先,介绍了安装和设置步骤,然后展示了如何使用Pandas的DataFrame进行数据加载、清洗和基本分析。接着,通过Jupyter Notebook的交互式环境,演示了数据分析和可视化,包括直方图的创建。文章还涉及数据清洗,如处理缺失值,并展示了如何进行高级数据分析,如数据分组和聚合。此外,还提供了将分析结果导出到文件的方法。通过销售数据的完整案例,详细说明了从加载数据到可视化和结果导出的全过程。最后,讨论了进一步的分析和可视化技巧,如销售额趋势、产品销售排名和区域分布,以及
58 2