PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

简介: PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置、排序操作详解

前言


时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。Spark中的PySpark是内嵌有Pandas接口的:


c4fe93144a734ebd8d7633f18de94649.png


使用方式和直接使用Pandas库是有所不同的,本篇文章将使用pyspark的pandas和pandas两种数据操作方式来展示pyspark的pandas该如何灵活使用来进行数据分析。


文章还是紧接上篇文章:


PySpark数据分析基础:PySpark基础功能及基础语法详解


一、Pandas数据结构


Pandas数据结构是通用了,共有六种数据结构,想要详细了解可以去看我这篇文章:一文速学-数据分析之Pandas数据结构和基本操作代码


1.Series


Series要理解很简单,就像它的单词为系列的意思。类似与数据结构中的字典有索引和对应值,也可以理解为数组,在Series中的下标1,2,3,...索引对应它的不同值。


0dc0a7b2761840639fdd9f21b73f8467.png


2.DataFrame


刚才从Series转化为DataFrame就可以看出DataFrame的格式就像一张表格,包含行和列索引。通过对应的行列对DataFrame进行操作,更像是对SQL中表格处理,两者有一定的类似之处。因此学过SQL的对DataFrane的操作更容易了解。


727924bf7c51459ba4a14720785c6e37.png


3.Time-Series


以时间为索引的Series。


faf4e0ba98ed45df858be3fbaa756688.png

4.Panel


三维的数组,可以理解为DataFrame的容器。

b9ad879c3dd7472da469ed45a5d0d980.png

5.Panel4D


像Panel一样的4维数据容器。


6.PanelND


拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。


后面四个用的场景十分少见,Series和DataFrame是最常用的数据类型,掌握这两个数据结构操作方法足够进行数据分析。


二、Pyspark实例创建


1.引入库


import pandas as pd
import numpy as np
import pyspark.pandas as ps
from pyspark.sql import SparkSession

如果运行上述代码有 WARNING:root:‘PYARROW_IGNORE_TIMEZONE‘ environment variable was not set.可以加上:

import os
os.environ["PYARROW_IGNORE_TIMEZONE"] = "1"


2.转换实现


通过传递值列表,在Spark上创建pandas,让pandas API在Spark上创建默认整数索引:


pyspark pandas series创建


和pandas是一样的


s = ps.Series([1, 3, 5, np.nan, 6, 8])


5b3387433e684d539b1ac0cf3f61d531.png

pyspark pandas dataframe创建


和pandas也是一样的:

ps_df=ps.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])

9803e94d8767499b9f0a331f4d842c1b.png


from_pandas转换


我们先用pandas创建一个普通的DataFrame:


pd_df=pd.DataFrame(
    {'name':['id1','id2','id3','id4'],
     'old':[21,23,22,35],
     'city':['杭州','北京','南昌','上海']
    },
    index=[1,2,3,4])


之后直接使用from_pandas开始转换就可以了:


1. ps_df=ps.from_pandas(pd_df)
2. type(ps_df)


4e8bca04f5f14ad7a90c90bf98d7dc8d.png

Spark DataFrame转换


也可以通过Pandas的DataFrame转换为Spark DataFrame:

spark = SparkSession.builder.getOrCreate()
sp_df=spark.createDataFrame(pd_df)
sp_df.show()

9102c093ff6f4ca6a917ffde5565287b.png


通过Spark DataFrame转换为PySpark DataFrame:


ps_df=sp_df.pandas_api()


c86b3a3a835e44b5a4568c325d0ff7d2.png

且和pandas一样查看数据类型方法是一样的:


ps_df.dtypes



b15b79a0febc454e94d3ebf1b349fb4a.png

Spark DataFrame中的数据在默认情况下并不保持自然顺序


通过设置compute.ordered_head可以保持自然顺序,但它会导致内部排序的性能开销。


ps_df.head()

e0ecc48a830a464388cb21f7d48b37af.png

三、PySpark Pandas操作


1.读取行列索引


读取行索引:


ps_df.index


Int64Index([0, 1, 2, 3], dtype='int64')

读取列索引:


ps_df.columns


Index(['name', 'old', 'city'], dtype='object')


2.内容转换为数组


ps_df.to_numpy()


df1372a2932d455da80bccddf7c4b944.png


3.DataFrame统计描述


ps_df.describe()


描述的数值均为float


c27a1c5f6ddd45e4aff4bc38e979c7f7.png


4.转置


ps_df.T


转置内容old列为int64,转置会报错,需要先转换为str再进行转置:

ps_df['old']=ps_df['old'].astype(str)
ps_df.T

0ecd2811bc3641c5b692b91f66a8f65c.png


5.排序


按行索引排序


ps_df.sort_index(ascending=False)


6855e85955344ff1851a860efc62f725.png

按某列值排序


ps_df.sort_values(by='old')



2566250ef906406fa4feeb6d3d6717f4.png


目录
相关文章
|
13天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
40 0
|
7天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
19 2
|
14天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
29 2
|
5天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
5天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
1月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
47 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
1月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
40 1
|
1月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
83 0
|
2月前
|
数据挖掘 Python
Pandas数据分析实战(2):2023美国财富1000强公司情况
Pandas数据分析实战(2):2023美国财富1000强公司情况
43 0
|
2月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
74 0