PySpark安装+Jupyter Notebook配置（Ubuntu 18.06）-阿里云开发者社区

PySpark安装+Jupyter Notebook配置（Ubuntu 18.06）

2018-09-05 6051

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 学校一门Big Data Computing需要学习Spark in Python。这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

学校一门Big Data Computing需要学习Spark in Python。
这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。

Prerequisite

我的系统是：Ubuntu 18.06 LTS

已经装好了python2和3(如果没有可以看看这个链接)
装好了jupyter notebook，没有的话自行google吧
装了Java 8或更高版本的Java(没有，也可以看看这个链接)

PySpark Installation Steps

1.去Spark downloads page.选择最新的Spark Release包(a prebuilt package for Hadoop), 然后直接下载。我现在的版本是Spark 2.3.1 (Jun 08 2018)。

去到下载文件夹，将文件移到home目录下并解压

$ cd Downloads
$ mv spark-2.3.1-bin-hadoop2.7.tgz ~/
$ tar -zxf spark-2.3.1-bin-hadoop2.7.tgz

        
          
        
        
        
          
          AI 代码解读

3.声明一下环境变量

$ sudo vim ~/.bashrc

        
          
        
        
        
          
          AI 代码解读

在文件尾部添加

export SPARK_HOME=/home/usrname/spark-2.3.1-bin-hadoop2.7
export PATH=$PATH:/home/username/spark-2.3.1-bin-hadoop2.7/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH

        
          
        
        
        
          
          AI 代码解读

重新运行一下刚刚修改的初始化文件

$ source ~/.bashrc

        
          
        
        
        
          
          AI 代码解读

安装成功的话，输入pyspark

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Python version 2.7.15rc1 (default, Apr 15 2018 21:51:34)
SparkSession available as 'spark'.

        
          
        
        
        
          
          AI 代码解读

我看到StackOverflow上面说，现在也可以直接运行pip install pystark来安装，但是貌似没有特别好去配置你的环境变量.我的同学是用PyPI方法装的，现在开学第一周，也没瞧出什么区别，问了TA跟我说只要不影响你写project，什么安装方法都行。（吐槽一下：这什么鬼回答....）

PySpark in Jupyter

在Jupyter Notebook里运行PySpark有两种方法：

配置PySpark driver，当运行pyspark命令就直接自动打开一个Jupyter Notebook
正常启动Jupyter Notebook，然后用findSpark的package(我选了这种)

方法一：配置PySpark driver

去~/.bashrc文件最后，添加配置PySpark driver的环境变量

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

        
          
        
        
        
          
          AI 代码解读

同样，运行一下刚刚修改的初始化文件

$ source ~/.bashrc

        
          
        
        
        
          
          AI 代码解读

最后，重启terminal

这个时候，就会自动打开Jupyter Notebook。

方法二：用findSpark包

安装findspark：

$ pip install findspark

        
          
        
        
        
          
          AI 代码解读

启动jupyter notebook

$ jupyter notebook

        
          
        
        
        
          
          AI 代码解读

Jupyter Notebook运行效果

附上代码，大家运行感受一下：

#方法2需要复制这三行
import findspark
findspark.init()
import pyspark

#方法1直接从这里开始复制
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):     
  x, y = random.random(), random.random()
  return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()

        
          
        
        
        
          
          AI 代码解读

Output：

实测，Python3的运行速度会比Python2的快很多，我不知道为什么我们TA跟我说用“Python 2 is better。”

常见问题（不断更新）

1.Python使用spark时出現版本不同的错误

import os
#for python 3
os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"
#for python 2
os.environ["PYSPARK_PYTHON"]="/usr/bin/python"

        
          
        
        
        
          
          AI 代码解读

我的电脑上的python的路径是/usr/bin/python，你可以运行where pythoncheck一下你的Python2的安装路径

参考链接

Get Started with PySpark and Jupyter Notebook in 3 Minutes

PySpark安装+Jupyter Notebook配置（Ubuntu 18.06）

Prerequisite

PySpark Installation Steps

PySpark in Jupyter

方法一：配置PySpark driver

方法二：用findSpark包

Jupyter Notebook运行效果

常见问题（不断更新）

参考链接

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

PySpark安装+Jupyter Notebook配置（Ubuntu 18.06）

Prerequisite

PySpark Installation Steps

PySpark in Jupyter

方法一：配置PySpark driver

方法二：用findSpark包

Jupyter Notebook运行效果

常见问题（不断更新）

参考链接

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像