问题背景
最近某个游戏内测,给到一批内测用户,并且将每位用户标记为RPG游戏用户,休闲游戏用户和卡牌游戏用户中的一种。期望分别统计出这几类用户的次日留存率,并观察是否有明显的区别,用于指导后续开展游戏运营活动。
这里记录使用卡方检验技术验证用户种类与次日行为的独立性,作为备忘。
统计结果
经过数据清理和统计,得到下面的结果
用户类型 |
注册日期 |
注册人数 |
次日留存用户 |
次日留存率 |
平均次日留存率 |
RPG |
day1 |
2,504 |
752 |
69.97% |
74.50% |
RPG |
day2 |
2,718 |
701 |
74.21% |
|
RPG |
day3 |
2,538 |
692 |
72.73% |
|
RPG |
day4 |
2,207 |
540 |
75.53% |
|
RPG |
day5 |
2,004 |
464 |
76.85% |
|
RPG |
day6 |
1,899 |
458 |
75.88% |
|
RPG |
day7 |
1,243 |
294 |
76.35% |
|
休闲 |
day1 |
2,983 |
925 |
68.99% |
73.45% |
休闲 |
day2 |
3,219 |
864 |
73.16% |
|
休闲 |
day3 |
3,067 |
863 |
71.86% |
|
休闲 |
day4 |
2,715 |
686 |
74.73% |
|
休闲 |
day5 |
2,442 |
607 |
75.14% |
|
休闲 |
day6 |
2,295 |
584 |
74.55% |
|
休闲 |
day7 |
1,523 |
370 |
75.71% |
|
卡牌 |
day1 |
2,102 |
675 |
67.89% |
73.04% |
卡牌 |
day2 |
2,198 |
584 |
73.43% |
|
卡牌 |
day3 |
1,908 |
542 |
71.59% |
|
卡牌 |
day4 |
1,643 |
422 |
74.32% |
|
卡牌 |
day5 |
1,454 |
372 |
74.42% |
|
卡牌 |
day6 |
1,382 |
370 |
73.23% |
|
卡牌 |
day7 |
883 |
208 |
76.44% |
‘
P.S.: 上面数据在不影响效果的基础上,进行过处理,并不代表真实的业务数据。
通过观察上面的数据,基本上可以判断不同类型游戏的次日留存率没有显著区别。但是,真的是这样吗?
卡方检验
可以通过卡方[1]检验来验证不同类别的游戏用户的流失和留存人数是否相互独立。
假设
原始假设H0:用户次日行为与用户类别相互独立。
备选假设Ha:用户次日行为与用户类别有相关性。
PS:次日行为指次日流失或留存,用户类别为RPG,休闲或卡片类
选择显著性水平α=1%
统计
在R中,通过卡方检验,可以得到如下统计结果
卡方值:9.36, p值[4]:0.9%
结论
由于P值=0.9%,小于显著性水平α=1%,所以可以拒绝原始假设H0,接受备选假设Ha,也就是用户的类别的确影响了用户的次日留存情况,并不是相互独立的。
这里下载统计代码和数据。
参考
[1] 卡方检验wiki
[2] 卡方检验实战
[3] 《深入浅出统计学/Head First Statistics》第十四章
[4] P值wiki