按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值

简介: 按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值

大家好,我是皮皮。


一、前言


前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题,按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值,这里拿出来给大家分享下,一起学习。

7f1bb50b492eeb0b3685354a7507efff.png


二、解决过程


这个看上去倒是不太难,但是实现的时候,总是一看就会,一用就废。这里给出【瑜亮老师】的三个解法,一起来看看吧!

方法一:使用自定义函数

代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
def demean(arr):
    return arr - arr.mean()
# 按照"lv"列进行分组并计算出"num"列每个分组的平均值,然后"num"列内的每个元素减去分组平均值
df["juncha"] = df.groupby("lv")["num"].transform(demean)
print(df

255c1958baebc25e5809dc3d3526e022.png

# transform 也支持 lambda 函数,效果是一样的,更简洁一些# df["juncha"] = df.groupby("lv")["num"].transform(lambda x: x - x.mean())# print(df)

方法二:使用内置函数

代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
gp_mean = df.groupby('lv')["num"].mean().rename("gp_mean").reset_index()
df2 = df.merge(gp_mean)
df2["juncha"] = df2["num"] - df2["gp_mean"]
print(df2)

5b5c3e6a9630883a0b03732501e190b4.png

方法三:使用 transform

transform能返回完整数据,输出的形状和输入一致(输入是num列,输出也是一列),代码如下:

import pandas as pd
lv = [1, 2, 2, 3, 3, 4, 2, 3, 3, 3, 3]
num = [122, 111, 222, 444, 555, 555, 333, 666, 666, 777, 888]
df = pd.DataFrame({'lv': lv, 'num': num})
# 方法三: 使用 transform。
df["gp_mean"] = df.groupby('lv')["num"].transform('mean')
df["juncha"] = df["num"] - df["gp_mean"]
print(df)
# 直接输出结果,省略分组平均值列
df["juncha"] = df["num"] - df.groupby('lv')["num"].transform('mean')
print(df)

b8bf1e614b5bb6889078c730d345573f.png

这样问题就完美地解决啦!

image.png

后面他还想用类的方式写,不过看上去没有那么简单。

a9e3fbcf0dda597b3e9fbfe3bf4f2ad6.png


三、总结


大家好,我是皮皮。这篇文章主要分享了Pandas处理相关知识,基于粉丝提出的按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值的问题,给出了3个行之有效的方法,帮助粉丝顺利解决了问题。


最后感谢粉丝【在下不才】提问,感谢【德善堂小儿推拿-瑜亮老师】给出的具体解析和代码演示,感谢【月神】提供的思路,感谢【dcpeng】等人参与学习交流。


小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。


相关文章
|
负载均衡 网络协议 UED
slb健康检查
SLB的健康检查确保后端服务器正常运行,通过定期探测判断服务器状态。支持TCP、HTTP/HTTPS协议,探测路径、间隔、阈值、超时时间和重试次数可配置。当服务器连续失败指定次数时,SLB会将其从负载均衡中移除,成功响应指定次数后重新纳入。健康检查机制保障流量转发至正常服务器,提升服务可用性和用户体验。配置时需结合业务需求和服务器性能。
617 3
|
算法 开发者
【Makefile 相关 】Makefile中patsubst(扩展通配符)的含义
【Makefile 相关 】Makefile中patsubst(扩展通配符)的含义
541 0
|
敏捷开发 人工智能 安全
通义灵码+DeepSeek-R1:AI编程助手的新标杆?
通义灵码与DeepSeek-R1模型的深度集成,重新定义了AI编程工具的边界。该组合通过“大模型+垂直优化”技术路线,显著提升开发者效率。实测显示,在代码生成、上下文理解、缺陷检测等方面表现优异,函数补全响应时间仅0.8秒,内存占用减少41%,编码时间节省35%。适用于敏捷开发、系统重构等场景,尤其适合中小型研发团队和全栈开发者。
|
11月前
|
人工智能 安全 数据中心
在泰国,阿里云第二座数据中心正式启用!
在泰国,阿里云第二座数据中心正式启用!
【LaTex、markdown】常用语法写出漂亮的blog
【9月更文挑战第9天】本文介绍了使用LaTeX和Markdown编写美观博客的方法。LaTeX方面,需定义文档类型、设置标题与作者,并利用特定命令处理文本格式、列表、数学公式、图片和超链接。Markdown则通过井号表示标题级别,使用星号或下划线标记文本,简化列表和公式的编写,并以直观方式插入图片和链接。两者均可通过合理布局提升博客的可读性和视觉效果。
469 8
|
缓存
计算机网络:可靠数据传输(rdt)、流水协议、窗口滑动协议
计算机网络:可靠数据传输(rdt)、流水协议、窗口滑动协议
1998 2
|
数据采集 数据可视化 数据管理
台州银行数据建设,打造小微金融治理新标杆
台州银行数据建设,打造小微金融治理新标杆
447 1
|
存储 JavaScript 前端开发
JS中数组去重的几种方法
JS中数组去重的几种方法
295 1
|
存储 API 开发工具
视觉智能开放平台产品使用合集之传入接口需要什么格式才能进行检测识别
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
165 0
|
安全 搜索推荐 数据挖掘
文件解析的终极工具:Apache Tika
文件解析的终极工具:Apache Tika
2576 0