数据分析实战 | Pandas交叉列表探寻用户数下降的原因

简介: 数据分析实战 | Pandas交叉列表探寻用户数下降的原因

场景描述


某公司经营的一款 APP 小游戏,游戏的用户数一直维持在一定的水平。然而,从 9 月开始,用户数开始大量减少。根据以往经验尝试做出如下假设。

  • 商业推广上存在问题,流失的用户数超过了新增的用户数
  • 每月不同主题的游戏活动开始变得很无聊,用户都不爱玩了
  • 按用户的性别或者年龄段等属性来划分用户群,可能是其中某个用户群出现了问题

经了解发现

  • 同上月相比,商业推广的力度大体没变,新增用户数也大致保持在相同的水平
  • 开展的各种游戏活动同上月相比几乎没有变化


因此,只剩下第 3 条假设没能得到验证了。再进一步深挖假设的内容,可以知道用户群通常是按照 性别年龄段 等来划分的。于是,首先我们可以考虑是否有某个属性的用户群数量减少了,然后通过和上月的数据加以比较,确认用户数量减少了的用户属性,并思考如何恢复用户数量。


注:由于无法事先猜测问题出现的原因,而是需要通过数据分析来探索原因所在,这种方式称为“探索型数据分析”。


数据描述


DAU(Daily Active User)

每天至少来访 1 次的用户数据,139112 行。

字段 类型 含义
log_date str 访问时间
app_name str 应用名
user_id numpy.int64 用户 ID
user_info

用户属性数据

字段 类型 含义
install_data str 首次使用日期
app_name str 应用名称
user_id numpy.int64 用户 ID
gender str 性别
generation numpy.int64 年龄段
device_type str 设备类型


数据分析


数据读取

读取两个数据集。

import pandas as pd
DAU_data = pd.read_csv('DAU.csv')
user_data = pd.read_csv('user_info.csv')
复制代码


显示 DAU 数据集前五行。

DAU_data.head()
复制代码

image.png


显示 user_data 数据集前五行。

user_data.head()
复制代码

image.png


DAUuser_datauser_id 为 key 进行合并,取交集。

all_df = DAU_data.merge(user_data, on=['user_id', 'app_name'])
all_df.head()
复制代码

image.png


修改,新增列。

列名 修改前 修改后
gender F/M 女/男
generation 10 10-19
新增 log_month 2013-08-01 8 月
import numpy as np
all_df['gender'] = all_df['gender'].replace({'F':'女','M':'男'})
all_df['generation'] = all_df['generation'].apply(lambda x:str(x) + '-' + str(x + 9))
all_df['log_month'] = pd.to_datetime(all_df['log_date']).map(lambda x : x.strftime("%m")[1] + '月'
复制代码


用户性别分析

统计两月中男女用户的人数,看看性别比例是否相差较大。

all_df.pivot_table(index='log_month',
                   columns='gender',
                   values='user_id',
                   aggfunc=np.count_nonzero)
复制代码

image.png

从上表来看,虽然整体上用户数量在较少,但性别比例没有很大变化。因此,用户数量减少的主要原因并不是某一性别用户大量减少。


用户年龄段分析

统计各个年龄段用户数量的变化情况。

all_df.pivot_table(index='log_month',
                   columns='generation',
                   values='user_id',
                   aggfunc=np.count_nonzero)
复制代码

image.png

无论哪个年龄段,用户的比例都没有发生大的变化。


用户性别&年龄段分析

进一步细分,看看是否某个性别下某个年龄段的用户数量减少了,下面我们将性别和年龄段组合起来,形成 2 重交叉列表统计。

all_df.pivot_table(index='log_month',
                   columns=['gender','generation'],
                   values='user_id',
                   aggfunc=np.count_nonzero)
复制代码

image.png

同样的,每个用户群所占的比例基本不变,没有用户群数量大幅减少的情况。


用户设备

最后一个维度,统计用户使用的设备差异。

all_df.pivot_table(index='log_month',
                   columns='device_type',
                   values='user_id',
                   aggfunc=np.count_nonzero)
复制代码

image.png

根据上表,明显看到使用 Android 的用户大量减少。

下面我们以天为单位,详细看看两种设置使用用户的变化情况。

image.png

通过上图,可以看到,Android 的用户数从 9 月 13 日开始急剧减少。

那么下一步就是弄清楚 Android 手机端出现的问题,并制定相应的改善策略,使用户数量回到和上月相同的水平,这里就不详细展开了。

这就是今天要分享的内容,我们下期再见!



相关文章
|
6天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
98 71
|
5天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
101 73
|
2月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
85 0
|
2天前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
39 22
|
7天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
37 5
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
50 2
|
2月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
55 2
|
2月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集