Pandas用到今天，没成想竟忽略了这个函数-阿里云开发者社区

Pandas用到今天，没成想竟忽略了这个函数

2022-05-27 120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pandas素以API丰富著称，个人也是常常沉醉于其中的各种骚操作而不能自拔（好吧，有些言重了）。近日，发现了一个前期一直忽略了的函数，仔细探索之下，发现竟然还有一些好用的功能，这个函数就是——transform。

transform是Pandas中的一个函数，既可组用于Series和DataFrame，也可与groupby联用作用于DataFrameGroupBy对象，所以本文主要介绍transform的两个主要功能：

元素级的函数变换
与groupby配套统计（维度无reduce，可参考窗口函数）

01 transform介绍

首先来看下transform的官方文档介绍：

def transform(
    obj: FrameOrSeries, func: AggFuncType, axis: Axis, *args, **kwargs
) -> FrameOrSeriesUnion:
    """
    Transform a DataFrame or Series
    Parameters
    ----------
    obj : DataFrame or Series
        Object to compute the transform on.
    func : string, function, list, or dictionary
        Function(s) to compute the transform with.
    axis : {0 or 'index', 1 or 'columns'}
        Axis along which the function is applied:
        * 0 or 'index': apply function to each column.
        * 1 or 'columns': apply function to each row.
    Returns
    -------
    DataFrame or Series
        Result of applying ``func`` along the given axis of the
        Series or DataFrame.

从函数签名可以看出，transform主要包括2个指定参数func和axis，其中func即为接收的处理函数，可以是函数对象、函数名字符串、函数列表以及字典函数等；axis即为作用的轴向；另有*args和**kwargs用于接收func函数的可变长参数及字典参数。

02 元素级的函数变换

在前期推文Pandas中的这3个函数，没想到竟成了我数据处理的主力一文中，重点介绍了apply、map以及applymap共3个函数的常用用法，那么transform的第一个功能颇有些map+applymap的味道：其中，map是只能用于Series对象的元素级变换，applymap则是只能用于DataFrame对象的元素级变换，但却要求必须所有函数都只能做相同函数处理，这又多少有些受限。

所以，transform呢？就既能满足map和applymap的部分需求，又在其基础上提供了更为丰富的操作。比如给定如下一个DataFrame：

需要对数值列A执行指数和对数两种运算（即对一个Series对象用transform，得到一个两列的DataFrame），显然传递函数格式需用列表，即：

进一步地，不仅需要对A列执行指数和对数计算，还需对字符串列B执行求长度计算，那么此时需要用transform的字典格式传递函数

上述例子中未声明axis参数，此时默认axis=0，即传递的函数是按列起作用。下面我们再举个例子，尝试一下axis=1的效果：

在这个例子中，通过传入axis=1这一参数，实现了对不同行调用不同函数的处理效果，且这里的函数包括传递字符串形式、函数对象以及lambda表达式等3种形式。

以上，其实transform实现的又何尝不是map或者applymap的效果呢？但又远比二者功能更具定制化。

03 与groupby配套使用

transform可用于groupby对象，这是我最初学习transform的作用，在Pandas中groupby的这些用法你都知道吗？一文中其实也有所介绍，所以此处就简单提及。

Pandas实现常用的聚合统计中，一般是用groupby直接加聚合函数或者通过agg传递若干聚合函数，更为定制化的也可通过groupby+apply实现。然而，这三种实现其实都有一个共同特点：那就是groupby之后行数一般会发生reduce（体现为行数减少），这也是通常意义下"聚合"的含义。那么某些场景下，其实是不需要聚合的，例如给定如下数据样例：

需要统计每个id各门课成绩的占比，如果用常规的聚合统计的思路需要用3步实现：

df.groupby("id").sum("score")，得到每个id的成绩总和
df与上述结果按照id进行merge，得到关联后的score和总成绩
score列与总成绩相除，得到占比

同样需求，如果巧妙使用transform的话那么就可以一步到位：

这个实现起来就很爽了，对吧