PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

简介: PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

前言


时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。Spark中的PySpark是内嵌有Pandas接口的:


c4fe93144a734ebd8d7633f18de94649.png


使用方式和直接使用Pandas库是有所不同的,本篇文章将使用pyspark的pandas和pandas两种数据操作方式来展示pyspark的pandas该如何灵活使用来进行数据分析。


文章还是紧接上篇文章:


PySpark数据分析基础:PySpark基础功能及基础语法详解


一、Pandas数据结构


Pandas数据结构是通用了,共有六种数据结构,想要详细了解可以去看我这篇文章:一文速学-数据分析之Pandas数据结构和基本操作代码


1.Series


Series要理解很简单,就像它的单词为系列的意思。类似与数据结构中的字典有索引和对应值,也可以理解为数组,在Series中的下标1,2,3,...索引对应它的不同值。


0dc0a7b2761840639fdd9f21b73f8467.png


2.DataFrame


刚才从Series转化为DataFrame就可以看出DataFrame的格式就像一张表格,包含行和列索引。通过对应的行列对DataFrame进行操作,更像是对SQL中表格处理,两者有一定的类似之处。因此学过SQL的对DataFrane的操作更容易了解。


727924bf7c51459ba4a14720785c6e37.png


3.Time-Series


以时间为索引的Series。


faf4e0ba98ed45df858be3fbaa756688.png

4.Panel


三维的数组,可以理解为DataFrame的容器。

b9ad879c3dd7472da469ed45a5d0d980.png

5.Panel4D


像Panel一样的4维数据容器。


6.PanelND


拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。


后面四个用的场景十分少见,Series和DataFrame是最常用的数据类型,掌握这两个数据结构操作方法足够进行数据分析。


二、Pyspark实例创建


1.引入库


import pandas as pd
import numpy as np
import pyspark.pandas as ps
from pyspark.sql import SparkSession

如果运行上述代码有 WARNING:root:‘PYARROW_IGNORE_TIMEZONE‘ environment variable was not set.可以加上:

import os
os.environ["PYARROW_IGNORE_TIMEZONE"] = "1"


2.转换实现


通过传递值列表,在Spark上创建pandas,让pandas API在Spark上创建默认整数索引:


pyspark pandas series创建


和pandas是一样的


s = ps.Series([1, 3, 5, np.nan, 6, 8])


5b3387433e684d539b1ac0cf3f61d531.png

pyspark pandas dataframe创建


和pandas也是一样的:

ps_df=ps.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])

9803e94d8767499b9f0a331f4d842c1b.png


from_pandas转换


我们先用pandas创建一个普通的DataFrame:


pd_df=pd.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])


之后直接使用from_pandas开始转换就可以了:


1. ps_df=ps.from_pandas(pd_df)
2. type(ps_df)


4e8bca04f5f14ad7a90c90bf98d7dc8d.png

Spark DataFrame转换


也可以通过Pandas的DataFrame转换为Spark DataFrame:

spark = SparkSession.builder.getOrCreate()
sp_df=spark.createDataFrame(pd_df)
sp_df.show()

9102c093ff6f4ca6a917ffde5565287b.png


通过Spark DataFrame转换为PySpark DataFrame:


ps_df=sp_df.pandas_api()


c86b3a3a835e44b5a4568c325d0ff7d2.png

且和pandas一样查看数据类型方法是一样的:


ps_df.dtypes



b15b79a0febc454e94d3ebf1b349fb4a.png

Spark DataFrame中的数据在默认情况下并不保持自然顺序


通过设置compute.ordered_head可以保持自然顺序,但它会导致内部排序的性能开销。


ps_df.head()

e0ecc48a830a464388cb21f7d48b37af.png

三、PySpark Pandas操作


1.读取行列索引


读取行索引:


ps_df.index


Int64Index([0, 1, 2, 3], dtype='int64')

读取列索引:


ps_df.columns


Index(['name', 'old', 'city'], dtype='object')


2.内容转换为数组


ps_df.to_numpy()


df1372a2932d455da80bccddf7c4b944.png


3.DataFrame统计描述


ps_df.describe()


描述的数值均为float


c27a1c5f6ddd45e4aff4bc38e979c7f7.png


4.转置


ps_df.T


转置内容old列为int64,转置会报错,需要先转换为str再进行转置:

ps_df['old']=ps_df['old'].astype(str)
ps_df.T

0ecd2811bc3641c5b692b91f66a8f65c.png


5.排序


按行索引排序


ps_df.sort_index(ascending=False)


6855e85955344ff1851a860efc62f725.png

按某列值排序


ps_df.sort_values(by='old')



2566250ef906406fa4feeb6d3d6717f4.png


目录
相关文章
|
1月前
|
数据格式 Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数转换数据格式。示例代码展示了如何通过`melt()`转为长格式,再用`pivot()`恢复为宽格式。输入数据是包含'Name'和'Age'列的DataFrame,最终结果经过转换后呈现出不同的布局。
39 6
|
1月前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名?
Pandas在Python中提供数据排序和排名功能。使用`sort_values()`进行排序,如`df.sort_values(by='A', ascending=False)`进行降序排序;用`rank()`进行排名,如`df['A'].rank(ascending=False)`进行降序排名。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`。
23 6
|
1月前
|
数据挖掘 C语言 索引
数据分析-pandas(三)
在这里,我们将讨论pandas数据结构中常见的许多基本功能
18 0
|
1月前
|
数据挖掘 索引 Python
数据分析-pandas(一)
pandas是Python的一个第三方开源库,是Python数据分析的必备高级工具,Pandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。在经济学中,Panel Data 是一个关于多维数据集的术语。Pandas 最初被应用于金融量化交易领域,现在它的应用领域更加广泛,涵盖了农业、工业、交通等许多行业。
35 0
|
2月前
|
存储 数据可视化 数据挖掘
Python在数据分析中的利器:Pandas库全面解析
【2月更文挑战第7天】 众所周知,Python作为一种简洁、易学且功能强大的编程语言,被广泛运用于数据科学和人工智能领域。而Pandas库作为Python中最受欢迎的数据处理库之一,在数据分析中扮演着举足轻重的角色。本文将全面解析Pandas库的基本功能、高级应用以及实际案例,带您深入了解这个在数据分析领域的利器。
51 1
|
1月前
|
SQL 数据挖掘 数据处理
Python数据分析(二)—— Pandas快速入门
Python数据分析(二)—— Pandas快速入门
|
2天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
13 2
|
5天前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
10 2
|
6天前
|
数据采集 SQL 数据可视化
Python数据分析工具Pandas
【4月更文挑战第14天】Pandas是Python的数据分析库,提供Series和DataFrame数据结构,用于高效处理标记数据。它支持从多种数据源加载数据,包括CSV、Excel和SQL。功能包括数据清洗(处理缺失值、异常值)、数据操作(切片、过滤、分组)、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy,适合大型数据集处理。通过加载数据、清洗、分析和可视化,Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。
12 1
|
8天前
|
供应链 搜索推荐 数据挖掘
Pandas实战案例:电商数据分析的实践与挑战
【4月更文挑战第16天】本文通过一个电商数据分析案例展示了Pandas在处理销售数据、用户行为分析及商品销售趋势预测中的应用。在数据准备与清洗阶段,Pandas用于处理缺失值、重复值。接着,通过用户购买行为和商品销售趋势分析,构建用户画像并预测销售趋势。实践中遇到的大数据量和数据多样性挑战,通过分布式计算和数据标准化解决。未来将继续深入研究Pandas与其他先进技术的结合,提升决策支持能力。