Python之pyspark:pyspark的简介、安装、使用方法之详细攻略

简介: Python之pyspark:pyspark的简介、安装、使用方法之详细攻略

pyspark的简介


       Spark是一个用于大规模数据处理的统一分析引擎。它提供Scala、Java、Python和R中的高级api,以及一个优化的引擎,该引擎支持用于数据分析的通用计算图。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的Spark SQL、用于机器学习的MLlib、用于图形处理的GraphX和用于流处理的结构化流。

       Python Packaging,这个自述文件只包含与PySpark安装的pip相关的基本信息。这个打包目前还处于试验阶段,在未来的版本中可能会有变化(尽管我们会尽力保持兼容性)。使用PySpark需要Spark jar,如果您是从源代码构建它,请参阅“构建Spark”中的构建器说明。

       Spark的Python打包并不打算取代所有其他用例。这个Python打包版本的Spark适合与现有集群交互(无论是Spark independent、YARN还是Mesos)—但是不包含设置自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

       注意:如果您在Spark独立集群中使用它,您必须确保版本(包括次要版本)匹配,否则您可能会遇到奇怪的错误。

官网:https://spark.apache.org/



pyspark的安装


pip install pyspark

image.png

image.png


pyspark的使用方法


from pyspark import SparkContext, SparkConf

from pyspark.sql.session import SparkSession

conf = SparkConf().setAppName('test_parquet')

sc = SparkContext('local', 'test', conf=conf)

spark = SparkSession(sc)

# parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet"

parquetFile = r"data.gz.parquet"

df = spark.read.parquet(parquetFile)

print(df.first())


 

相关文章
|
11月前
|
Linux 计算机视觉 C++
【解决方案】Building wheel for opencv-python:安装卡顿的原因与解决方案
当你安装OpenCV时,命令行停在Building wheel for opencv-python (PEP 517) ... -似乎卡住了。这并非程序假死,而是其编译耗时巨大。本文将揭示原因,并提供优化安装体验的实用方法。
1315 88
|
8月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
1475 1
|
9月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
1479 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
IDE 开发工具 开发者
手把手教你安装PyCharm 2025:开发者的Python IDE配置全流程+避坑指南
本教程详细介绍了PyCharm 2025版本在Windows系统下的安装流程及配置方法,涵盖AI代码补全与智能调试工具链等新功能。内容包括系统要求、安装步骤、首次运行配置(如主题选择与插件安装)、创建首个Python项目,以及常见问题解决方法。此外,还提供了切换中文界面和延伸学习资源的指导,帮助用户快速上手并高效使用PyCharm进行开发。
6269 61
|
11月前
|
人工智能 数据挖掘 Linux
Centos安装Python3.7(亲测可用)
本指南详细介绍了在基于Linux(以CentOS系统为例,使用yum包管理器)的系统上安装Python 3.7版本的完整流程。Python是一种广泛使用的高级编程语言,在各种领域如软件开发、数据分析、人工智能和区块链开发等都有着重要的应用。
883 2
|
11月前
|
人工智能 Python
python基本数据类型简介
本文简要介绍了Python的基本数据类型,包括整型、浮点型、字符串、列表、字典和布尔类型,帮助读者对Python数据类型有初步了解。
280 0
|
存储 缓存 文件存储
uv安装python及其依赖的加速方法
国内在使用uv的时候,可能会涉及到装python的速度太慢的问题,为了解决这个问题,可以使用`UV_PYTHON_INSTALL_MIRROR`这个环境变量。除此以外,对于多人协作场景,`UV_CACHE_DIR`也是一个有用的环境变量。本文会介绍这两个变量。
8533 10
|
数据采集 运维 Java
课时13:Python简介
今天我们分享的是 Python 的简单介绍,主要分为以下四部分。 1. Python 的百科介绍 2. Python 的发明者 3. Python 的发展历史 4. Python 的用途
360 1
|
Linux 开发工具 C语言
30天python速成-第一天(python简介及下载安装)
30天python速成-第一天(python简介及下载安装)
|
Linux 开发者 iOS开发

推荐镜像

更多