Pandas数据分析之groupby妙用

简介: 今天本人在赶学校课程作业的时候突然发现groupby这个分组函数还是蛮有用的,有了这个分组之后你可以实现很多统计目标。当然,最主要的是,他的使用非常简单本期我们以上期作业为例,单走一篇文章来看看这个函数可以实现哪些功能:


今天本人在赶学校课程作业的时候突然发现groupby这个分组函数还是蛮有用的,有了这个分组之后你可以实现很多统计目标。

当然,最主要的是,他的使用非常简单

本期我们以上期作业为例,单走一篇文章来看看这个函数可以实现哪些功能:

(本期需要准备的行囊):

jupyter notebook环境(anaconda自带)

pandas第三方库

numpy第三方库(也许会用吧)

能运行以上依赖的电脑和舒服的外设

一定的python基础

需要是吃饱喝足的你,带上能运作的小脑瓜来继续


一、了解groupby


这是一个函数,一般作用于dataframe上,有返回值,不改变原变量。输出的是原dataframe按照传入参数分组后的结果。

image.png

我们一通引入获得了一个dataframe,按照“user”进行了分组,发现得到的是一个dataframegroupby对象。这个对象内部是什么呢?我们用遍历循环来看看:

for i in f.groupby("user"):
    print(i)

image.png

发现这个对象内部是一个个元组,每个元组的第一个元素是我们设定的分组依据的值

(例如这里我们设定的分组依据是user,这里第一个元组包含的是user为19500时的所有记录,元组第一个元素就是19500)

而当我们输出元组里的第二个元素的时候,发现得到的是类似dataframe的结果

image.png

看前面user下面的数据,整齐划一,是不是?o(〃^▽^〃)o


二、数据文件简介


文章中所用数据为某时段内消费者的行为数据。user为消费者编号,brand为品牌编号,behavr为消费者行为(0代表浏览,1代表购买,2代表收藏,3代表加入购物车。且允许存在不浏览直接购买的行为)

接下来我们要针对这些数据进行处理,输出一些有用的结果


三、求各个商品购买量


因为要求统计的“购买”行为属于behavr列中的某特殊值。很容易想到先用条件筛选选出所有购买的记录,再用groupby按各个商品分类,再用size()方法统计分组后每组的数量,以此输出各个商品的购买量。

image.png

那么会了这个之后来举一反三一下:求各个商品浏览量

自行思考一下再往下翻哦

image.png

没错,就是改一下一开始条件过滤的数值即可。把购买(1)改成浏览(0)


四、求各个商品转化率


商业数据分析经常会遇到一个数据量——转化率,其实就是购买的数量比上浏览的数量。以此来看这个商品是否足够吸引人。

我们这里在上面已经计算出了各个商品的浏览量和购买量,事实上只需要比一比就可以了。

正好,pandas的series计算是我们想要的,他会根据键值对去分别计算

这个series里user名字是键,数量是值,非常完美符合series计算设定,我们直接除一下就行。


image.pngimage.png

image.png

pandas用.div()来实现比值功能(前面的比后面的)。

要注意的是,series计算可能会带来缺失值,因为两个series计算的时候并不能保证两个series的键完全一样

即有可能出现前一个series有的键而后一个没有。比如这里可以看出brand 11就只有浏览没有购买,因此统计购买量的时候没有11这个键,但是浏览量中有11这个键。

在计算的时候不共有的键会以缺失值的形式出现,即NaN:

image.png

如果我们不想看到这个缺失值NaN,在div内添加fill_value参数可以把缺失值补充上

image.png


五、转化率最高的30个商品及其转化率


这就需要用到排序了。其实也很简单。我们把前面计算好的转化率用sort_values()函数排序之后输出前30个即可:

image.png

sort_value()函数中设置ascending参数为False即为降序,默认为True升序

head(n)用来输出前n个,同理tail(n)用来输出最后n个


小小の总结


其实我们不难发现,python语言其实本身过于“高级”。他不需要你思考用什么算法来完成这些操作(特别是你本身还在用第三方库的时候)。

她总有相关的函数或者方法可以替你完成。并且这个函数内部可能是C语言等基础语言实现的,代码效率会比你自己在python上手码要快很多

作为使用者,想要快速入门的话,你所需要的——

只是把这些都记住就行了

大概这就是一个像文科一样的编程语言吧……




相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
75 0
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
43 2
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
45 2
|
1月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
2月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
63 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
2月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
47 1
|
3月前
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
120 1
|
3月前
|
数据挖掘 Python
Pandas实战(3):电商购物用户行为数据分析
Pandas实战(3):电商购物用户行为数据分析
132 1
下一篇
DataWorks