PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

简介: PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

前言


时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。Spark中的PySpark是内嵌有Pandas接口的:


c4fe93144a734ebd8d7633f18de94649.png


使用方式和直接使用Pandas库是有所不同的,本篇文章将使用pyspark的pandas和pandas两种数据操作方式来展示pyspark的pandas该如何灵活使用来进行数据分析。


文章还是紧接上篇文章:


PySpark数据分析基础:PySpark基础功能及基础语法详解


一、Pandas数据结构


Pandas数据结构是通用了,共有六种数据结构,想要详细了解可以去看我这篇文章:一文速学-数据分析之Pandas数据结构和基本操作代码


1.Series


Series要理解很简单,就像它的单词为系列的意思。类似与数据结构中的字典有索引和对应值,也可以理解为数组,在Series中的下标1,2,3,...索引对应它的不同值。


0dc0a7b2761840639fdd9f21b73f8467.png


2.DataFrame


刚才从Series转化为DataFrame就可以看出DataFrame的格式就像一张表格,包含行和列索引。通过对应的行列对DataFrame进行操作,更像是对SQL中表格处理,两者有一定的类似之处。因此学过SQL的对DataFrane的操作更容易了解。


727924bf7c51459ba4a14720785c6e37.png


3.Time-Series


以时间为索引的Series。


faf4e0ba98ed45df858be3fbaa756688.png

4.Panel


三维的数组,可以理解为DataFrame的容器。

b9ad879c3dd7472da469ed45a5d0d980.png

5.Panel4D


像Panel一样的4维数据容器。


6.PanelND


拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。


后面四个用的场景十分少见,Series和DataFrame是最常用的数据类型,掌握这两个数据结构操作方法足够进行数据分析。


二、Pyspark实例创建


1.引入库


import pandas as pd
import numpy as np
import pyspark.pandas as ps
from pyspark.sql import SparkSession

如果运行上述代码有 WARNING:root:‘PYARROW_IGNORE_TIMEZONE‘ environment variable was not set.可以加上:

import os
os.environ["PYARROW_IGNORE_TIMEZONE"] = "1"


2.转换实现


通过传递值列表,在Spark上创建pandas,让pandas API在Spark上创建默认整数索引:


pyspark pandas series创建


和pandas是一样的


s = ps.Series([1, 3, 5, np.nan, 6, 8])


5b3387433e684d539b1ac0cf3f61d531.png

pyspark pandas dataframe创建


和pandas也是一样的:

ps_df=ps.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])

9803e94d8767499b9f0a331f4d842c1b.png


from_pandas转换


我们先用pandas创建一个普通的DataFrame:


pd_df=pd.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])


之后直接使用from_pandas开始转换就可以了:


1. ps_df=ps.from_pandas(pd_df)
2. type(ps_df)


4e8bca04f5f14ad7a90c90bf98d7dc8d.png

Spark DataFrame转换


也可以通过Pandas的DataFrame转换为Spark DataFrame:

spark = SparkSession.builder.getOrCreate()
sp_df=spark.createDataFrame(pd_df)
sp_df.show()

9102c093ff6f4ca6a917ffde5565287b.png


通过Spark DataFrame转换为PySpark DataFrame:


ps_df=sp_df.pandas_api()


c86b3a3a835e44b5a4568c325d0ff7d2.png

且和pandas一样查看数据类型方法是一样的:


ps_df.dtypes



b15b79a0febc454e94d3ebf1b349fb4a.png

Spark DataFrame中的数据在默认情况下并不保持自然顺序


通过设置compute.ordered_head可以保持自然顺序,但它会导致内部排序的性能开销。


ps_df.head()

e0ecc48a830a464388cb21f7d48b37af.png

三、PySpark Pandas操作


1.读取行列索引


读取行索引:


ps_df.index


Int64Index([0, 1, 2, 3], dtype='int64')

读取列索引:


ps_df.columns


Index(['name', 'old', 'city'], dtype='object')


2.内容转换为数组


ps_df.to_numpy()


df1372a2932d455da80bccddf7c4b944.png


3.DataFrame统计描述


ps_df.describe()


描述的数值均为float


c27a1c5f6ddd45e4aff4bc38e979c7f7.png


4.转置


ps_df.T


转置内容old列为int64,转置会报错,需要先转换为str再进行转置:

ps_df['old']=ps_df['old'].astype(str)
ps_df.T

0ecd2811bc3641c5b692b91f66a8f65c.png


5.排序


按行索引排序


ps_df.sort_index(ascending=False)


6855e85955344ff1851a860efc62f725.png

按某列值排序


ps_df.sort_values(by='old')



2566250ef906406fa4feeb6d3d6717f4.png


目录
相关文章
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
5天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
11天前
|
Python
使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序
使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序。示例代码展示了如何按'Name'和'Age'列排序 DataFrame。先按'Name'排序,再按'Age'排序。sort_values()的by参数接受列名列表,ascending参数控制排序顺序(默认升序),inplace参数决定是否直接修改原DataFrame。
23 1
|
13天前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
13天前
|
数据可视化 数据挖掘 C++
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
|
13天前
|
算法 数据挖掘 数据处理
数据分析Pandas之Series,快速上手
数据分析Pandas之Series,快速上手
|
14天前
|
数据采集 机器学习/深度学习 数据可视化
Pandas在数据分析中有广泛的应用场景
Pandas是数据分析利器,适用于数据清洗(处理缺失值、重复项、异常值)、探索分析(统计量、图表)、预处理(特征提取、编码、选择)、建模(线性回归、聚类等)及可视化,与Matplotlib等库配合提升效率。
9 1
|
14天前
|
数据处理 Python
Pandas在数据分析中的应用案例
使用Pandas分析销售数据,通过`read_csv`读取CSV,`groupby`按产品类别分组并应用`agg`计算类别总销售额、平均价和销售量。之后,利用`sort_values`按销售额降序排列,`head`获取前5高销售额类别。示例代码展示了Pandas在数据处理和分析中的高效性。
25 0
|
19天前
|
数据挖掘 数据处理 索引
python常用pandas函数nlargest / nsmallest及其手动实现
python常用pandas函数nlargest / nsmallest及其手动实现
36 0
|
20天前
|
Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数变换数据。示例代码:导入pandas,定义一个包含'Name'和'Age'列的DataFrame,使用`melt()`转为长格式,再用`pivot()`恢复为宽格式。
26 1