Python之pyspark:pyspark的简介、安装、使用方法之详细攻略

简介: Python之pyspark:pyspark的简介、安装、使用方法之详细攻略

pyspark的简介


       Spark是一个用于大规模数据处理的统一分析引擎。它提供Scala、Java、Python和R中的高级api,以及一个优化的引擎,该引擎支持用于数据分析的通用计算图。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX和用于流处理的结构化流。

       Python Packaging,这个自述文件只包含与PySpark安装的pip相关的基本信息。这个打包目前还处于试验阶段,在未来的版本中可能会有变化(尽管我们会尽力保持兼容性)。使用PySpark需要Spark jar,如果您是从源代码构建它,请参阅“构建Spark”中的构建器说明。

       Spark的Python打包并不打算取代所有其他用例。这个Python打包版本的Spark适合与现有集群交互(无论是Spark independent、YARN还是Mesos)—但是不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

       注意:如果您在Spark独立集群中使用它,您必须确保版本(包括次要版本)匹配,否则您可能会遇到奇怪的错误。

官网:https://spark.apache.org/



pyspark的安装


pip install pyspark

image.png

image.png


pyspark的使用方法


from pyspark import SparkContext, SparkConf

from pyspark.sql.session import SparkSession

conf = SparkConf().setAppName('test_parquet')

sc = SparkContext('local', 'test', conf=conf)

spark = SparkSession(sc)

# parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"

parquetFile = r"data.gz.parquet"

df = spark.read.parquet(parquetFile)

print(df.first())


 

相关文章
|
2月前
|
IDE 开发工具 索引
在Python中安装第三方库
在Python中安装第三方库
820 30
|
25天前
|
Linux Python
Linux 安装python3.7.6
本教程介绍在Linux系统上安装Python 3.7.6的步骤。首先使用`yum`安装依赖环境,包括zlib、openssl等开发库。接着通过`wget`下载Python 3.7.6源码包并解压。创建目标文件夹`/usr/local/python3`后,进入解压目录执行配置、编译和安装命令。最后设置软链接,使`python3`和`pip3`命令生效。
|
10天前
|
人工智能 编译器 Python
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
python已经安装有其他用途如何用hbuilerx配置环境-附带实例demo-python开发入门之hbuilderx编译器如何配置python环境—hbuilderx配置python环境优雅草央千澈
|
2月前
|
存储 JSON 网络安全
使用 EFS 在 AWS Lambda 上安装 Python 依赖项
使用 aws lambda 时,开发人员面临的常见挑战之一是管理大型 python 依赖项。
35 1
|
2月前
|
Ubuntu Linux iOS开发
安装Python
安装 Python 是相对简单的过程,但需要根据不同的操作系统选择合适的方法。同时,合理使用虚拟环境可以更好地管理项目的依赖和环境,提高开发效率。希望这些步骤和注意事项能帮助你顺利安装 Python。
|
3月前
|
Python
Python 三方库下载安装
Python 三方库下载安装
40 1
|
3月前
|
Python
【python从入门到精通】-- 第一战:安装python
【python从入门到精通】-- 第一战:安装python
68 0
|
SQL JSON 分布式计算
【Python】PySpark 入门
【Python】PySpark 入门
258 0
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。