Python数据分析实战 | 经典的同期群分析(附实战数据和代码)

简介: 同期群分析是数据分析中一个hin经典的思维,核心是将用户按初始行为的发生时间,划分为不同的群组,进而分析相似群组的行为如何随时间变化而变化。

前几天写了一篇关于同期群分析的内容,主要从理论层面,讲清楚这个经典的分析思维是什么、为什么要做以及怎么延展。并且在文末立了个开放式flag,说点赞超过xx,就会更新提供源数据的Python实现篇。原文这里:都说经典,同同同期群分析到底是个啥?


话说像这种flag,本意其实是“拖延拖延,以后看心情更”。没想到啊,大家对于这个模型的实现有这么大的兴趣,我被不止一个群友盯梢催更....


这不,卑微小编,按时祭上原创~


这篇内容首先对同期群分析的概念做了简短的回顾,然后循着数据概览、数据清洗、思路剖析、单点实现以及最终实现的流程,力图做到每一步清晰明确和可复现。


跟着实践一遍,无论是模型理解程度还是Pandas运用的熟练度,都会蹭蹭往上蹿。


一、理论回顾


同期群分析是数据分析中一个hin经典的思维,核心是将用户按初始行为的发生时间,划分为不同的群组,进而分析相似群组的行为如何随时间变化而变化。


一般是通过像这样的留存表来实现:


15.png


每一行,代表当月新增客户,在接下来几个月的留存情况。


通过横向对比,能够对客户留存和生命周期有初步的认识。基于纵向观察,可以发现不同期客户,留存情况的差异,以反推该期引入的客户是否精准。


这个表看起来简单明晰,也有一些成熟的工具能够实现,但是,真要基于订单数据用Python来实现,还是要绞一番脑汁的。


二、数据概览



首先,导入订单数据,顺带看一看源数据长什么样子:


16.png


这是一份小z杂货铺的数据,比炒粉高级那么一些。后续分析会用到的关键字段有客户昵称,付款时间,订单状态和支付金额。


再查看数据量和缺失情况:


17.png


订单共计42713行,除付款时间外,其他都是完整的(不含缺失值)。


格式整体规整,付款时间为datetime格式,购买金额和数量则是数值型。


三、数据清洗



清洗的重点在于搞清楚为什么会有那么多付款时间是缺失的。我们先筛选出付款时间为空值的行,一探究竟:


18.png


貌似,缺失付款时间的数据,订单状态主要是“交易失败”。这里做一个初步推断,之所以缺失付款时间,是因为没有产生实际交易


19.png


果然,缺失付款时间的订单都是“交易失败”状态,而完整的数据则是“交易成功”。


接下来,只需要筛选出交易成功的订单就好:


20.png


40339行数据,就是同期群分析的主战场。


四、思路剖析



再让最开始的留存表刷一下存在感:


21.png


直接思考怎么样一次性生成这张表,着实费头发。更合理的方式是用搭积木的思维来拆解这张表。

这张表的每一行,代表一个同期群,而他们的本质逻辑是一样的。

  • 首先计算出当月新增的客户数,并记录客户昵称
  • 然后拿这部分客户,分别去和后面每个月购买的客户做匹配,并统计有多少客户出现复购(留存)

只要我们计算出每个月的新增客户和对应留存情况,把这些数据拼接在一起,就得到了梦寐以求的同期群留存表。

五、单月实现


循着上一步的思路,问题变得简单起来,实现一个月的计算逻辑,其他月份套用即可。

杂货铺的数据时间维度和上面的留存表不太一样,因为不涉及到时间序列,用字符串形式的“年-月”标签更加方便:


22.png


订单源数据是从19年9月开始,到2020年2月。我们以2019年10月的数据为样板,实现单行的同期群分析。


23.png


显而易见,2019年10月份一共有7336位客户,购买了8096笔订单。


接下来,我们要计算的是每个月的新增客户数,这个新增,是需要和之前的月份遍历匹配来验证的,2019年10月之前的客户就是2019年9月的数据:


24.png


和历史数据做匹配,验证并筛选出2019年10月新增的客户数:


25.png


然后,和10月之后每个月的客户昵称进行匹配,计算出每个月的留存情况


26.png


把最开始的当月新增客户加入到列表:


27.png


2019年10月新增客户7083位,次月(11月)留存539人,随后有所降低,而到了2020年2月留存回购客户数较上月有小幅上升。


其他月份的新增和留存计算分析逻辑,也是如此。


遍历合并



上一步我们以2019年10月为样板,先根据历史订单,匹配出当月纯新增客户,接着再以月的维度,对后续每个月的客户进行遍历,验证客户留存数量。


为了便于循环,我们引入了月份列表:


28.png


完整代码和关键注释如下:


#引入时间标签
month_lst = order['时间标签'].unique()
final = pd.DataFrame()
for i in range(len(month_lst) - 1):
    #构造和月份一样长的列表,方便后续格式统一
    count = [0] * len(month_lst)
    #筛选出当月订单,并按客户昵称分组
    target_month = order.loc[order['时间标签'] == month_lst[i],:]
    target_users = target_month.groupby('客户昵称')['支付金额'].sum().reset_index()
    #如果是第一个月份,则跳过(因为不需要和历史数据验证是否为新增客户)
    if i == 0:
        new_target_users = target_month.groupby('客户昵称')['支付金额'].sum().reset_index()
    else:
        #如果不是,找到之前的历史订单
        history = order.loc[order['时间标签'].isin(month_lst[:i]),:]
        #筛选出未在历史订单出现过的新增客户
        new_target_users = target_users.loc[target_users['客户昵称'].isin(history['客户昵称']) == False,:]
    #当月新增客户数放在第一个值中
    count[0] = len(new_target_users)
    #以月为单位,循环遍历,计算留存情况
    for j,ct in zip(range(i + 1,len(month_lst)),range(1,len(month_lst))):
        #下一个月的订单
        next_month = order.loc[order['时间标签'] == month_lst[j],:]
        next_users = next_month.groupby('客户昵称')['支付金额'].sum().reset_index()
        #计算在该月仍然留存的客户数量
        isin = new_target_users['客户昵称'].isin(next_users['客户昵称']).sum()
        count[ct] = isin
    #格式转置
    result = pd.DataFrame({month_lst[i]:count}).T
    #合并
    final = pd.concat([final,result])
final.columns = ['当月新增','+1月','+2月','+3月','+4月','+5月']


当当当当!顺利得到了我们预期的数据。


29.png


不过,真实数据是留存率形式体现,再稍做加工即可:


30.png


终于,大功告成!实现了我们所希望的同期群分析表。简单扫两眼,可以发现:


  • 横向观察,次月流失严重,表现最好的月份次月留存也只有12%,随后平稳降低,稳定在6%左右。
  • 纵向对比,2019年当月新增客户最少,仅有2042位,但人群相对精准,留存率表现优于其他月份。
  • ...


由于篇幅有限,可视化的部分就留给旁友们自己去实践咯~




相关文章
|
19天前
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现智能食品消费模式分析的深度学习模型
使用Python实现智能食品消费模式分析的深度学习模型
112 70
|
20天前
|
开发框架 数据建模 中间件
Python中的装饰器:简化代码,增强功能
在Python的世界里,装饰器是那些静悄悄的幕后英雄。它们不张扬,却能默默地为函数或类增添强大的功能。本文将带你了解装饰器的魅力所在,从基础概念到实际应用,我们一步步揭开装饰器的神秘面纱。准备好了吗?让我们开始这段简洁而富有启发性的旅程吧!
26 6
|
18天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
17天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费市场分析的深度学习模型
使用Python实现智能食品消费市场分析的深度学习模型
94 36
|
11天前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
57 15
|
15天前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
75 18
|
13天前
|
数据可视化 Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
通过这些思维导图和分析说明表,您可以更直观地理解和选择适合的数据可视化图表类型,帮助更有效地展示和分析数据。
57 8
|
18天前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
41 10
|
18天前
|
Python
探索Python中的装饰器:简化代码,增强功能
在Python的世界里,装饰器就像是给函数穿上了一件神奇的外套,让它们拥有了超能力。本文将通过浅显易懂的语言和生动的比喻,带你了解装饰器的基本概念、使用方法以及它们如何让你的代码变得更加简洁高效。让我们一起揭开装饰器的神秘面纱,看看它是如何在不改变函数核心逻辑的情况下,为函数增添新功能的吧!
|
19天前
|
程序员 测试技术 数据安全/隐私保护
深入理解Python装饰器:提升代码重用与可读性
本文旨在为中高级Python开发者提供一份关于装饰器的深度解析。通过探讨装饰器的基本原理、类型以及在实际项目中的应用案例,帮助读者更好地理解并运用这一强大的语言特性。不同于常规摘要,本文将以一个实际的软件开发场景引入,逐步揭示装饰器如何优化代码结构,提高开发效率和代码质量。
43 6

热门文章

最新文章