1 简介
开门见山,在pandas
中,transform
是一类非常实用的方法,通过它我们可以很方便地将某个或某些函数处理过程(非聚合)作用在传入数据的每一列上,从而返回与输入数据形状一致的运算结果。
本文就将带大家掌握pandas
中关于transform
的一些常用使用方式。
图1
2 pandas中的transform
在pandas
中transform
根据作用对象和场景的不同,主要可分为以下几种:
2.1 transform作用于Series
当transform
作用于单列Series
时较为简单,以前段时间非常流行的「企鹅数据集」为例:
图2
我们在读入数据后,对bill_length_mm
列进行transform
变换:
- 「单个变换函数」
我们可以传入任意的非聚合类函数,譬如对数化:
# 对数化 penguins['bill_length_mm'].transform(np.log)
图3
或者传入「lambda」函数:
# lambda函数 penguins['bill_length_mm'].transform(lambda s: s+1)
图4
- 「多个变换函数」
也可以传入包含多个变换函数的「列表」来一口气计算出多列结果:
penguins['bill_length_mm'].transform([np.log, lambda s: s+1, np.sqrt])
图5
而又因为transform
传入的函数,在执行运算时接收的输入参数是对应的「整列数据」,所以我们可以利用这个特点实现诸如「数据标准化」、「归一化」等需要依赖样本整体统计特征的变换过程:
# 利用transform进行数据标准化 penguins['bill_length_mm'].transform(lambda s: (s - s.mean()) / s.std())
图6
2.2 transform作用于DataFrame
当transform
作用于整个DataFrame
时,实际上就是将传入的所有变换函数作用到每一列中:
# 分别对每列进行标准化 ( penguins .loc[:, 'bill_length_mm': 'body_mass_g'] .transform(lambda s: (s - s.mean()) / s.std()) )
图7
而当传入多个变换函数时,对应的返回结果格式类似agg
中的机制,会生成MultiIndex
格式的字段名:
( penguins .loc[:, 'bill_length_mm': 'body_mass_g'] .transform([np.log, lambda s: s+1]) )
图8
而且由于作用的是DataFrame
,还可以利用字典以键值对的形式,一口气为每一列配置单个或多个变换函数:
# 根据字典为不同的列配置不同的变换函数 ( penguins .loc[:, 'bill_length_mm': 'body_mass_g'] .transform({'bill_length_mm': np.log, 'bill_depth_mm': lambda s: (s - s.mean()) / s.std(), 'flipper_length_mm': np.log, 'body_mass_g': [np.log, np.sqrt]}) )
图9
2.3 transform作用于DataFrame的分组过程
在对DataFrame
进行分组操作时,配合transform
可以完成很多有用的任务,譬如对缺失值进行填充时,根据分组内部的均值进行填充:
# 分组进行缺失值均值填充 ( penguins .groupby('species')[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']] .transform(lambda s: s.fillna(s.mean().round(2))) )
图10