盘点一道Pandas中分组聚合groupby()函数用法的基础题

简介: 盘点一道Pandas中分组聚合groupby()函数用法的基础题

昨天忘记标注原创了,今天继续重新发布一下!勿怪勿怪!


大家好,我是皮皮。


一、前言


前几天在Python最强王者交流群有个叫【Chloé】的粉丝问了一个关于Pandas中groupby函数的问题,这里拿出来给大家分享下,一起学习。

8f561f52a43c90d29906a78aef7ef33.jpg

这个粉丝在法国留学,所以提问是英文的,当然了英文看上去也不难,有点二级英文基础,也看得懂,实在不行,在线翻译一下也问题不大了。


二、解决过程


这里给出【dcpeng】大佬和【月神】的解答。

【dcpeng】的解答

gruopby是分组的意思,这个我们都知道。python中groupby函数主要的作用是进行数据的分组以及分组后的组内运算!

对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下:

df.groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)

70f82f5fefd0e50ab40ee155116286f.jpg

如上图所示,前面是没问题的,后面有个地方他的解析有点问题,好在有【月神】补充,一起来看看吧!

【月神】的解答

405682da1521e5e9347e3bff7cbd0d8f.png

从这个图里可以看出来使用driver_gender列对data进行聚合后再对search_conducted列进行分组求和。.sum()就是求和函数,对指定数据列进行相加。

5da785a641fa8e6496a095e5086252b.jpg

上面【dcpeng】大佬认为这个search_conducted是个函数,其实不是,它是指分类的属性,数据的限定,search_conducted是具体的列,需要结合数据查看。其实说白了,就只是针对分组后的search_conducted列进行sum求和。


【月神】在这里还多了一些拓展,详情如下图所示。


此图一出,小伙伴们直呼好家伙,确实太清晰了,一目了然!

e8ed369fe9a90e189f6d6681c4734d5.jpg


三、总结


大家好,我是Python进阶者。这篇文章基于粉丝提问,针对Pandas中分组聚合groupby()函数用法的基础题问题,给出了具体说明和演示,顺利地帮助粉丝解决了问题。


总的来说,python中groupby函数主要的作用是进行数据的分组以及分组后的组内运算!对于数据的分组和分组运算主要是指groupby函数的应用,具体函数的规则如下:

df.groupby([df[属性],df[属性])(指分类的属性,数据的限定定语,可以有多个).mean()(对于数据的计算方式——函数名称)


最后感谢粉丝【Chloé】提问,感谢【月神】和【dcpeng】大佬给出的示例和代码支持,感谢粉丝【冫马讠成】、【Zhang Zhiyu】、【PI】、【东哥】、【艾希·觉罗】、【༺ཉི།།与歌同行ཉྀ༻】、【Toria D.】、【༺⃰ཊ⃰-听风-ཏ⃰༻⃰】等人参与学习交流。


小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。


相关文章
|
10月前
|
数据挖掘 数据处理 数据库
Pandas数据聚合:groupby与agg
Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具,用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧,涵盖单列聚合、多列聚合及自定义聚合函数等内容,并通过代码案例进行说明,帮助读者高效处理数据。
831 32
|
11月前
|
Python
|
11月前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
108 1
|
11月前
|
BI Python
Pandas 常用函数-数据统计和描述
Pandas 常用函数-数据统计和描述
197 0
|
11月前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
70 0
|
19天前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
123 0
|
19天前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
222 0
|
2月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
214 0
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
294 1
|
11月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
328 0

热门文章

最新文章