按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值

简介: 按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值

大家好,我是皮皮。


一、前言


前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题,按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值,这里拿出来给大家分享下,一起学习。

7f1bb50b492eeb0b3685354a7507efff.png


二、解决过程


这个看上去倒是不太难,但是实现的时候,总是一看就会,一用就废。这里给出【瑜亮老师】的三个解法,一起来看看吧!

方法一:使用自定义函数

代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
def demean(arr):
    return arr - arr.mean()
# 按照"lv"列进行分组并计算出"num"列每个分组的平均值,然后"num"列内的每个元素减去分组平均值
df["juncha"] = df.groupby("lv")["num"].transform(demean)
print(df

255c1958baebc25e5809dc3d3526e022.png

# transform 也支持 lambda 函数,效果是一样的,更简洁一些# df["juncha"] = df.groupby("lv")["num"].transform(lambda x: x - x.mean())# print(df)

方法二:使用内置函数

代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
gp_mean = df.groupby('lv')["num"].mean().rename("gp_mean").reset_index()
df2 = df.merge(gp_mean)
df2["juncha"] = df2["num"] - df2["gp_mean"]
print(df2)

5b5c3e6a9630883a0b03732501e190b4.png

方法三:使用 transform

transform能返回完整数据,输出的形状和输入一致(输入是num列,输出也是一列),代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
# 方法三: 使用 transform。
df["gp_mean"] = df.groupby('lv')["num"].transform('mean')
df["juncha"] = df["num"] - df["gp_mean"]
print(df)
# 直接输出结果,省略分组平均值列
df["juncha"] = df["num"] - df.groupby('lv')["num"].transform('mean')
print(df)

b8bf1e614b5bb6889078c730d345573f.png

这样问题就完美地解决啦!

image.png

后面他还想用类的方式写,不过看上去没有那么简单。

a9e3fbcf0dda597b3e9fbfe3bf4f2ad6.png


三、总结


大家好,我是皮皮。这篇文章主要分享了Pandas处理相关知识,基于粉丝提出的按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值的问题,给出了3个行之有效的方法,帮助粉丝顺利解决了问题。


最后感谢粉丝【在下不才】提问,感谢【德善堂小儿推拿-瑜亮老师】给出的具体解析和代码演示,感谢【月神】提供的思路,感谢【dcpeng】等人参与学习交流。


小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。


相关文章
|
2月前
|
移动开发 HTML5
分组元素
分组元素。
17 3
|
4月前
leetcode-6133:分组的最大数量
leetcode-6133:分组的最大数量
29 0
|
7月前
|
JavaScript 前端开发 Java
57jqGrid 分组 - 多分组在头部显示求和(新)
57jqGrid 分组 - 多分组在头部显示求和(新)
21 0
|
7月前
|
JavaScript 前端开发 Java
55jqGrid 分组 - 多分组所有级数求和(新)
55jqGrid 分组 - 多分组所有级数求和(新)
32 0
55jqGrid 分组 - 多分组所有级数求和(新)
|
4月前
|
Java 测试技术
统计满足条件的子集个数
统计满足条件的子集个数
21 0
|
10月前
|
Python
将列表按照指定的规则排序并添加平均值
将列表按照指定的规则排序并添加平均值
51 1
|
10月前
|
数据库
tp5 某个字段相加、统计、最大值、最小值、平均值及总分
tp5 某个字段相加、统计、最大值、最小值、平均值及总分
|
SQL 数据挖掘 关系型数据库
数据的分组与计算
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在数据集准备好之后,通常就是计算分组统计或生成透视表。pandas 提供了一个灵活高效的 groupby 功能,使我们可以高效地对数据集进行操作。 关系型数据库和 SQL 能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像 SQL 这样的查询语言所能执行的分组运算的种类很有限,而由于 pandas 强大的表达能力,我们可以执行复杂得多的分组运算。
96 0
|
.NET 开发框架
Linq 分组(group by)求和(sum)并且按照分隔符(join)分割列数据
转载:http://www.cnblogs.com/zq281660880/archive/2012/09/26/2704836.html 今天在使用linq处理一下需求时碰到一点小问题,特此记录。   需求:     按照品名相同的进行汇总,数量相加、表号按分号分割显示   1、组织...
1282 0