PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

简介: PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

前言


时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。Spark中的PySpark是内嵌有Pandas接口的:


c4fe93144a734ebd8d7633f18de94649.png


使用方式和直接使用Pandas库是有所不同的,本篇文章将使用pyspark的pandas和pandas两种数据操作方式来展示pyspark的pandas该如何灵活使用来进行数据分析。


文章还是紧接上篇文章:


PySpark数据分析基础:PySpark基础功能及基础语法详解


一、Pandas数据结构


Pandas数据结构是通用了,共有六种数据结构,想要详细了解可以去看我这篇文章:一文速学-数据分析之Pandas数据结构和基本操作代码


1.Series


Series要理解很简单,就像它的单词为系列的意思。类似与数据结构中的字典有索引和对应值,也可以理解为数组,在Series中的下标1,2,3,...索引对应它的不同值。


0dc0a7b2761840639fdd9f21b73f8467.png


2.DataFrame


刚才从Series转化为DataFrame就可以看出DataFrame的格式就像一张表格,包含行和列索引。通过对应的行列对DataFrame进行操作,更像是对SQL中表格处理,两者有一定的类似之处。因此学过SQL的对DataFrane的操作更容易了解。


727924bf7c51459ba4a14720785c6e37.png


3.Time-Series


以时间为索引的Series。


faf4e0ba98ed45df858be3fbaa756688.png

4.Panel


三维的数组,可以理解为DataFrame的容器。

b9ad879c3dd7472da469ed45a5d0d980.png

5.Panel4D


像Panel一样的4维数据容器。


6.PanelND


拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。


后面四个用的场景十分少见,Series和DataFrame是最常用的数据类型,掌握这两个数据结构操作方法足够进行数据分析。


二、Pyspark实例创建


1.引入库


import pandas as pd
import numpy as np
import pyspark.pandas as ps
from pyspark.sql import SparkSession

如果运行上述代码有 WARNING:root:‘PYARROW_IGNORE_TIMEZONE‘ environment variable was not set.可以加上:

import os
os.environ["PYARROW_IGNORE_TIMEZONE"] = "1"


2.转换实现


通过传递值列表,在Spark上创建pandas,让pandas API在Spark上创建默认整数索引:


pyspark pandas series创建


和pandas是一样的


s = ps.Series([1, 3, 5, np.nan, 6, 8])


5b3387433e684d539b1ac0cf3f61d531.png

pyspark pandas dataframe创建


和pandas也是一样的:

ps_df=ps.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])

9803e94d8767499b9f0a331f4d842c1b.png


from_pandas转换


我们先用pandas创建一个普通的DataFrame:


pd_df=pd.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])


之后直接使用from_pandas开始转换就可以了:


1. ps_df=ps.from_pandas(pd_df)
2. type(ps_df)


4e8bca04f5f14ad7a90c90bf98d7dc8d.png

Spark DataFrame转换


也可以通过Pandas的DataFrame转换为Spark DataFrame:

spark = SparkSession.builder.getOrCreate()
sp_df=spark.createDataFrame(pd_df)
sp_df.show()

9102c093ff6f4ca6a917ffde5565287b.png


通过Spark DataFrame转换为PySpark DataFrame:


ps_df=sp_df.pandas_api()


c86b3a3a835e44b5a4568c325d0ff7d2.png

且和pandas一样查看数据类型方法是一样的:


ps_df.dtypes



b15b79a0febc454e94d3ebf1b349fb4a.png

Spark DataFrame中的数据在默认情况下并不保持自然顺序


通过设置compute.ordered_head可以保持自然顺序,但它会导致内部排序的性能开销。


ps_df.head()

e0ecc48a830a464388cb21f7d48b37af.png

三、PySpark Pandas操作


1.读取行列索引


读取行索引:


ps_df.index


Int64Index([0, 1, 2, 3], dtype='int64')

读取列索引:


ps_df.columns


Index(['name', 'old', 'city'], dtype='object')


2.内容转换为数组


ps_df.to_numpy()


df1372a2932d455da80bccddf7c4b944.png


3.DataFrame统计描述


ps_df.describe()


描述的数值均为float


c27a1c5f6ddd45e4aff4bc38e979c7f7.png


4.转置


ps_df.T


转置内容old列为int64,转置会报错,需要先转换为str再进行转置:

ps_df['old']=ps_df['old'].astype(str)
ps_df.T

0ecd2811bc3641c5b692b91f66a8f65c.png


5.排序


按行索引排序


ps_df.sort_index(ascending=False)


6855e85955344ff1851a860efc62f725.png

按某列值排序


ps_df.sort_values(by='old')



2566250ef906406fa4feeb6d3d6717f4.png


目录
相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
43 2
|
16天前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
【9月更文挑战第2天】数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
43 5
|
27天前
|
数据挖掘 大数据 数据处理
数据分析师的秘密武器:精通Pandas DataFrame合并与连接技巧
【8月更文挑战第22天】在数据分析中,Pandas库的DataFrame提供高效的数据合并与连接功能。本文通过实例展示如何按员工ID合并基本信息与薪资信息,并介绍如何基于多列(如员工ID与部门ID)进行更复杂的连接操作。通过调整`merge`函数的`how`参数(如'inner'、'outer'等),可实现不同类型的连接。此外,还介绍了使用`join`方法根据索引快速连接数据,这对于处理大数据集尤其有用。掌握这些技巧能显著提升数据分析的能力。
44 1
|
28天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
29天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
1月前
|
数据采集 数据挖掘 数据处理
Python数据分析:Numpy、Pandas高级
在上一篇博文中,我们介绍了Python数据分析中NumPy和Pandas的基础知识。本文将深入探讨NumPy和Pandas的高级功能,并通过一个综合详细的例子展示这些高级功能的应用。
|
20天前
|
存储 数据可视化 前端开发
7个Pandas&Jupyter特殊技巧,让Python数据分析更轻松
7个Pandas&Jupyter特殊技巧,让Python数据分析更轻松
|
20天前
|
SQL 数据可视化 数据挖掘
一文带你看懂Python数据分析利器——Pandas的前世今生
一文带你看懂Python数据分析利器——Pandas的前世今生
|
27天前
|
数据采集 数据挖掘 数据处理
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
30 0
|
1月前
|
存储 数据可视化 数据挖掘
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
Python 3 中使用 pandas 和 Jupyter Notebook 进行数据分析和可视化
32 0