【经验分享】卡方检验实战--检验次日留存率与用户分类的独立性

简介:

问题背景

最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户休闲游戏用户卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。

这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。

统计结果

经过数据清理和统计,得到下面的结果

用户类型

注册日期

注册人数

次日留存用户

次日留存率

平均次日留存率

RPG

day1

2,504

752

69.97%

74.50%

RPG

day2

2,718

701

74.21%

RPG

day3

2,538

692

72.73%

RPG

day4

2,207

540

75.53%

RPG

day5

2,004

464

76.85%

RPG

day6

1,899

458

75.88%

RPG

day7

1,243

294

76.35%

休闲

day1

2,983

925

68.99%

73.45%

休闲

day2

3,219

864

73.16%

休闲

day3

3,067

863

71.86%

休闲

day4

2,715

686

74.73%

休闲

day5

2,442

607

75.14%

休闲

day6

2,295

584

74.55%

休闲

day7

1,523

370

75.71%

卡牌

day1

2,102

675

67.89%

73.04%

卡牌

day2

2,198

584

73.43%

卡牌

day3

1,908

542

71.59%

卡牌

day4

1,643

422

74.32%

卡牌

day5

1,454

372

74.42%

卡牌

day6

1,382

370

73.23%

卡牌

day7

883

208

76.44%

P.S.: 上面数据在不影响效果的基础上,进行过处理,并不代表真实的业务数据。

通过观察上面的数据,基本上可以判断不同类型游戏的次日留存率没有显著区别。但是,真的是这样吗?

 

卡方检验

可以通过卡方[1]检验来验证不同类别的游戏用户的流失和留存人数是否相互独立。

假设

原始假设H­0:用户次日行为与用户类别相互独立。

备选假设Ha:用户次日行为与用户类别有相关性。

PS:次日行为指次日流失或留存,用户类别为RPG,休闲或卡片类

选择显著性水平α=1%

统计

在R中,通过卡方检验,可以得到如下统计结果

clip_image002

卡方值:9.36, p值[4]:0.9%

结论

由于P值=0.9%,小于显著性水平α=1%,所以可以拒绝原始假设H0,接受备选假设H­a,也就是用户的类别的确影响了用户的次日留存情况,并不是相互独立的。

这里下载统计代码和数据。

 

参考

[1] 卡方检验wiki

[2] 卡方检验实战

[3] 《深入浅出统计学/Head First Statistics》第十四章

[4] P值wiki

声明:如有转载本博文章,请注明出处。您的支持是我的动力!文章部分内容来自互联网,本人不负任何法律责任。
本文转自bourneli博客园博客,原文链接:http://www.cnblogs.com/bourneli/p/3949474.html ,如需转载请自行联系原作者
相关文章
|
5月前
|
图计算
综合评价法与权重方法汇总
综合评价法与权重方法汇总
|
5月前
R语言ECM误差修正模型、均衡修正模型、受限VECM、协整检验、单位根检验即期利率市场数据
R语言ECM误差修正模型、均衡修正模型、受限VECM、协整检验、单位根检验即期利率市场数据
|
2月前
|
Oracle Java 关系型数据库
淘宝粗排问题之引入场景外成交样本以优化全域成交hitrate,如何解决
淘宝粗排问题之引入场景外成交样本以优化全域成交hitrate,如何解决
|
5月前
|
机器学习/深度学习 算法 数据可视化
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
|
5月前
|
数据可视化 流计算
估计获胜概率:模拟分析学生多项选择考试通过概率可视化
估计获胜概率:模拟分析学生多项选择考试通过概率可视化
|
5月前
|
Python
python实现股票策略回测案例
此Python代码演示了一个简单的股票策略回测,使用yfinance库获取AAPL股票2020年至2022年的数据。它计算每日收益率,并基于前一日收益率决定买卖:正则买入,负则卖出。通过模拟交易更新现金和股票余额,最终计算总收益。请注意,此示例未涵盖交易费用、滑点、风险管理等实际交易因素。
138 0
|
12月前
|
Python
简易评分系统
如果用户名及口令不合法,用户名或口令最多可输入3次,验证错误超过3次以后,自动退出系统。
107 0
|
机器学习/深度学习 数据采集 数据可视化
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
967 0
数据分析案例-基于随机森林模型探究电商网站推销商品的影响因素
|
机器学习/深度学习 数据可视化 数据挖掘
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
191 0
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
|
算法 Python
十分钟掌握分类算法的评估指标(下)
什么是评估指标? 评估指标是针对模型性能优劣的一个定量指标。一种评价指标只能反映模型一部分性能,如果选择的评价指标不合理,那么可能会得出错误的结论,故而应该针对具体的数据、模型选取不同的的评价指标。 针对不同类型的学习任务,我们有不同的评估指标,这里我们来介绍最常见的分类算法的一些评估指标。常用的分类任务评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线(Precision-Recall Curve)、ROC、AUC等。
下一篇
无影云桌面