Pandas数据处理 | apply() 函数用法指南!

简介: 本文介绍一下关于 Pandas 中 apply() 函数的几个常见用法,apply() 函数的自由度较高,可以直接对 Series 或者 DataFrame 中元素进行逐元素遍历操作,方便且高效,具有类似于 Numpy 的特性。

本文介绍一下关于 Pandas 中 apply() 函数的几个常见用法,apply() 函数的自由度较高,可以直接对 Series 或者 DataFrame 中元素进行逐元素遍历操作,方便且高效,具有类似于 Numpy 的特性。

apply() 使用时,通常放入一个 lambda 函数表达式、或一个函数作为操作运算,官方上给出的 apply() 用法:

DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwds

func 代表的是传入的函数或 lambda 表达式;


axis 参数可提供的有两个,该参数默认为0/列


0 或者 index ,表示函数处理的是每一列;


1 或 columns ,表示处理的是每一行;


raw ;bool 类型,默认为 False;


False ,表示把每一行或列作为 Series 传入函数中;


True,表示接受的是 ndarray 数据类型;


apply() 最后的是经过函数处理,数据以 Series 或 DataFrame 格式返回。


下面用几个例子来介绍一下 apply() 的具体使用;


DataFrame 使用apply()


1,计算每个元素的平方根

这里为了方便,直接用到 numpy 的 sqrt 函数;

>>> df  =pd.DataFrame([[4,9]]*3,columns = ['A','B'])
>>> df
   A  B
0  4  9
1  4  9
2  4  9
>>> df.apply(np.sqrt)
     A    B
0  2.0  3.0
1  2.0  3.0
2  2.0  3.0

2,计算每一行元素的平均值

这里传入数据是以列的形式存在的,所以 axis = 0,即可以省略;

>>> df.apply(np.mean)
A    4.0
B    9.0

3,计算每一列元素的平均值

与 2 不同的是这里以行的行形式传入,要加一个参数 axis =1;

>>> df.apply(np.mean,axis = 1)
0    6.5
1    6.5
2    6.5
dtype: float64

4,添加新列C,其值分别为列A、B之和

实现这个功能,最简单的一行代码即可实现:

df['C'] = df.A +df.B


但这里要用 apply() 来实现,实现对列间操作的用法,操作步骤分为下面两步:

1,先定义一个函数实现 列A + 列B ;

2,利用apply() 添加该函数,且数据需要逐行加入,因此设置axis = 1

>>> def Add_a(x):
...   return x.A+x.B
>>> df['C'] = df.apply(Add_a,axis=1)
>>> df
   A  B   C
0  4  9  13
1  4  9  13
2  4  9  13

Series 使用apply()

Series 使用 apply() 函数与 DataFrame 相似,用法上最大区别就是加了一个列名 DataFram.类名

**1,列 A 中所有元素加 1 **


不用 apply() 的方法

df.A =df.A +1

利用 apply() 函数进行操作,这里我传入一个 lambda 函数:

>>> df.A = df.A.apply(lambda x:x+1)
>>> df
   A  B   C
0  5  9  13
1  5  9  13
2  5  9  13

*2,判断列 A 中元素是否能够被2整除,用 Yes 或 No在旁边标注 **

>>> df.A = df.A.apply(lambda x:str(x)+"\tYes" if x%2==0 else str(x)+"\tNo")
>>> df
       A  B
0  5\tNo  9
1  5\tNo  9
2  5\tNo  9

apply() 的大部分用法都是上面几点,区别是这里列的例子较简单一些,但对于基础用法理解上来说已经足够了。

以上就是本文的所有内容,最后感谢大家阅读!

相关文章
|
10天前
|
数据挖掘 数据处理 索引
Pandas高级数据处理:多级索引
Pandas的多级索引(MultiIndex)允许在一个轴上拥有多个层次的索引,适用于分层数据处理。可通过列表或已有DataFrame创建多级索引,如按日期和股票代码索引金融数据。常见问题包括索引层级混乱、数据选择困难和聚合操作复杂,解决方法分别为检查参数顺序、使用`loc`和`xs`方法选择数据、用`groupby()`进行聚合。代码案例展示了创建、调整索引层级、选择特定数据及聚合操作。
120 83
|
7天前
|
数据挖掘 Unix 数据处理
Pandas高级数据处理:管道操作
Pandas 是 Python 中流行的数据分析库,提供丰富的结构化数据处理功能。`pipe` 方法(管道操作)简化了数据处理步骤的串联,避免嵌套调用带来的代码混乱。通过定义函数并使用 `pipe` 串联,如筛选特定类别产品和计算销售额平均值,使代码更清晰易读。常见问题包括函数参数传递不正确、返回值类型不匹配及复杂逻辑难以维护。合理设计与编程习惯能充分发挥管道操作的优势,提高代码可读性和可维护性。
38 16
|
8天前
|
机器学习/深度学习 数据采集 算法
Pandas高级数据处理:自定义函数
Pandas是Python中强大的数据分析库,支持复杂的数据转换、计算与聚合。自定义函数在处理特殊需求时尤为重要,如数据清洗、特征工程和格式转换。使用自定义函数时需注意作用域、效率等问题,并解决常见报错如KeyError和ValueError。通过向量化操作和算法优化可提升性能。代码案例展示了如何用自定义函数计算排名和成绩等级,满足业务需求。
110 88
|
3天前
|
存储 缓存 数据处理
Pandas高级数据处理:缓存与持久化
本文介绍 Pandas 中的缓存与持久化技术,涵盖其意义、常见方式及问题解决方案。缓存可提高效率、减少重复计算;持久化则优化资源使用。文中探讨内存缓存、文件系统和数据库持久化,并提供代码示例,如 LRU 缓存、Parquet 格式保存及 SQLite 数据库交互,帮助读者理解和应用这些技术。
111 73
|
5天前
|
存储 数据挖掘 数据处理
Pandas高级数据处理:内存优化
Pandas 是流行的数据分析库,但随着数据量增加,内存使用问题日益突出。本文介绍常见内存优化问题及解决方案,包括选择合适数据类型(如 int8、float32)、使用 category 类型减少字符串内存开销、分块读取大文件避免 MemoryError 等。通过代码示例详细讲解如何优化内存使用,提高程序性能并避免错误。掌握这些技巧可显著提升 Pandas 数据处理效率。
87 58
|
9天前
|
数据可视化 数据挖掘 数据处理
Pandas高级数据处理:窗口函数
Pandas 是 Python 中强大的数据分析库,窗口函数(如 `rolling`、`expanding` 和 `ewm`)用于滚动计算、累积计算等。本文介绍窗口函数的基本概念、代码示例及常见问题解决方法,帮助读者灵活运用这些工具进行数据分析。通过合理选择窗口大小、处理边界值和缺失数据,以及优化性能,充分发挥窗口函数的优势。
45 27
|
1天前
|
分布式计算 资源调度 大数据
Pandas高级数据处理:分布式计算
随着数据量增长,传统的Pandas单机处理难以应对大规模数据。Dask作为Pandas的补充,支持分布式计算,能处理更大数据集并提高效率。本文介绍Dask在数据加载、类型推断和分区管理中的常见问题及解决方法,如使用`dask.dataframe.read_csv()`、指定`dtype`、调整分区数等,并总结了内存溢出、类型不匹配和网络通信失败等报错的解决方案。
44 17
|
2天前
|
存储 数据挖掘 数据处理
Pandas高级数据处理:性能优化技巧
Pandas 是 Python 数据分析的强大工具,但在处理大规模数据集时可能遇到性能瓶颈。本文介绍常见性能问题及优化方法,包括数据加载(分块读取、选择必要列、指定数据类型)、筛选过滤(避免链式索引、优化布尔索引)、聚合分组(使用 `transform`、减少列)等,并提供代码案例。同时,针对内存溢出、数据类型不匹配和索引冲突等常见报错,给出解决方案。通过这些优化措施,提升 Pandas 数据处理的效率和稳定性。
27 14
|
1天前
|
存储 大数据 数据挖掘
Pandas高级数据处理:大数据集处理
Pandas 是强大的 Python 数据分析库,但在处理大规模数据集时可能遇到性能瓶颈和内存不足问题。本文介绍常见问题及解决方案,如分块读取、选择性读取列、数据类型优化、避免不必要的副本创建等技巧,并通过代码示例详细解释。同时,针对 `MemoryError`、`SettingWithCopyWarning` 和 `DtypeWarning` 等常见报错提供解决方法,帮助读者更高效地处理大数据集。
30 12
|
6天前
|
分布式计算 并行计算 数据处理
Pandas高级数据处理:并行计算
Pandas是Python中广泛使用的数据分析库,随着数据量增加,单线程处理速度成为瓶颈。本文介绍Pandas并行计算的基本概念、方法及常见问题的解决方案。并行计算通过多线程、多进程或分布式框架(如Dask)实现,充分利用多核CPU优势。文章详细解释了数据分割、内存占用和线程/进程间通信等问题,并提供了代码示例。最后总结了常见报错及其解决方法,帮助开发者提升数据处理效率。
24 3