游戏运营技术之---->运用箱线图分析PCU和DAU(一)

简介: 在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛开设讨论区,欢迎各位讨论和提出建议。

在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛开设讨论区,欢迎各位讨论和提出建议。

今天说说如何运用箱线图进行这两个指标的分析,在此作为一个例子与大家分享,设计的文献和参考资料会给各位列出来,以便于各位查阅。

什么是箱线图?

维基百科给出的定义

(http://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96):

箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。

箱线图什么样?

箱线图的常用统计量

百度百科(http://baike.baidu.com/view/1326550.htm)

绘制须使用常用的统计量,最适宜提供有关数据的位置和分散的参考,尤其在不同的母体数据时更可表现其差异。

常用的统计量 :

平均数

中位数

百分位数

四分位数

全距

四分位距

变异数和标准差

从箱线图上我们会看到什么信息?

如下图所示为一个示意箱线图(维基百科),从这个图上我们可以读出一下的信息:

这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7。

中位数(Med)=8.5。(一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9。

最大值(max)=10。

平均值=8。

四分位间距(interquartile range)=Q3 − Q1=2 (即ΔQ)

在区间 Q3+2ΔQ, Q1-2ΔQ 之外的值被视为应忽略(farout)。

注:四分位数就是将数据从小到大排序后,处于25%与75%位置的数为下上四分位数。

farout: 在图上不予显示,仅标注一个符号∇。

最大值区间: Q3+1.5ΔQ

最小值区间: Q1-1.5ΔQ

上下四分位数的波动范围:上下四分位数+1.5四分位差

最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.

outlier = 3.5

 

为什么我们要用箱线图来分析PCU和DAU?

箱线图分析是一种很常用的分析方法,但是由于作图比较麻烦,如果不借助SPSS等专业统计分析软件作图,会不太方便,箱线图用于监控数据的波动。

在游戏的运营过程中,产生的数据必然存在异常值的情况,但是这些异常值在通过曲线形式的展现后由于会受到坐标比例的迷惑,使一些原本存在异常情况的数据掩盖了,有些问题进而不能发现,如下图所示:

两条曲线表现的是同一组数据,但是曲线的状态因为比例标尺的调整导致曲线的升幅发生了变化,这样一来,就容易迷惑DMA,很多时候异常值被忽略了,因此在做曲线的同时,如果精力允许可以做做箱线图比较一下,因为箱线图非常容易的识别数据中的异常值。异常值如果持续的被我们忽略,会对于我们的分析工作带来干扰因素,同时我们还要寻找异常值出现的原因,是开服,合服,服务器事故还是其他问题。有力的把握异常值分析是发现问题进而改进的绝佳时机。刚才提到了箱线图提供一个识别异常值的标准(MBALIB给予了分析):“异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。”

(http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE)

那么这里大家可能有一个疑问,为什么距离是1.5倍?其实正如刚才所说的,这是一种经过大量分析和经验积累起来的标准,有一定的参考意义。“统计学中离群点为超出平均数±N个标准差的范围的数值。这个数值并非随意而定,其中运用的是统计学知识。

当一组数据为对称分布时,

约有68%的数据在平均数±1个标准差的范围之内

约有95%的数据在平均数±2个标准差的范围之内

约有99%的数据在平均数±3个标准差的范围之内

当一组数据未不对称分布时,

至少有75%的数据落在平均数±2个标准差范围之内

至少有89%的数据落在平均数±3个标准差范围之内

至少有94%的数据落在平均数±4个标准差范围之内

根据以上情况可以看出,如果某数值为离群点,那么该数值确实存在异常之处。“

(运营数据监控 BY小武  http://www.docin.com/p-239532559.html

时间所限,今天先把第一部分整理分享给各位。之后把第二部分分析过程上传。

相关文章
|
5月前
|
存储 运维 监控
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
SelectDB 实现日志高效存储与实时分析,完成任务可领取积分、餐具套装/水杯/帆布包!
|
5月前
|
人工智能 算法 IDE
通义灵码:以AI重塑开发者生产力,解锁智能编程新范式
通义灵码是阿里云推出的一款AI智能编程助手,基于通义大模型打造,深度集成于主流IDE。它不仅提供全场景智能代码生成、对话式开发体验和工程化智能重构等功能,还通过百亿级参数大模型底座、企业级环境适配、私有化部署等优势,重新定义人机协作边界。在真实开发场景中,通义灵码显著提升API开发与算法优化效率,助力开发者从机械劳动转向创造性对话,开启人机协同的新时代。
321 9
|
Java 关系型数据库 MySQL
GraalVM 静态编译下 OTel Java Agent 的自动增强方案与实现
在 2024 OpenTelemetry Community Day 会议中,阿里云可观测工程师张乎兴(望陶)和饶子昊(铖朴)为大家带来了《GraalVM 静态编译下 OTel Java Agent 的自动增强方案与实现》的演讲分享,介绍阿里云在相关领域的探索方案,本文是相关分享对应的中文整理。
466 115
|
10月前
|
监控 小程序 前端开发
排队免单小程序开发源码案例
“排队免单小程序”旨在通过用户排队行为结合特定规则为用户提供免单或优惠机会,提升用户体验及商家流量。核心功能包括用户注册登录、排队管理、免单规则设置、支付与结算、商家管理和通知提醒等。技术上采用微信小程序开发框架,前后端分离架构,集成微信支付等服务,确保高效安全的数据处理与传输。项目开发过程涵盖需求分析、设计开发、集成测试和上线发布,后期注重数据监控、用户反馈和运营推广,以持续优化用户体验。
刘谦春晚纸牌魔术背后的数学—海明码原理简介
刘谦春晚纸牌魔术背后的数学—海明码原理简介
|
存储 弹性计算 缓存
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
阿里云服务器ECS提供了多种通用型实例规格族,每种规格族都针对不同的计算需求、存储性能、网络吞吐量和安全特性进行了优化。以下是对存储增强通用型实例规格族g8ise、通用型实例规格族g8a、通用型实例规格族g8y、存储增强通用型实例规格族g7se、通用型实例规格族g7等所有通用型实例规格族的详细解析,包括它们的核心特点、适用场景、实例规格及具体指标数据,以供参考。
阿里云服务器ECS通用型实例规格族特点、适用场景、指标数据解析
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
320 3
Hadoop集群配置https实战案例
|
SQL DataWorks Java
DataWorks操作报错合集之在阿里云 DataWorks 中,代码在开发测试阶段能够成功运行,但在提交后失败并报错“不支持https”如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
265 1
DataWorks操作报错合集之在阿里云 DataWorks 中,代码在开发测试阶段能够成功运行,但在提交后失败并报错“不支持https”如何解决
|
Shell Python
`pytest-httpserver`是一个pytest插件,它允许你在测试期间启动一个轻量级的HTTP服务器,并模拟HTTP请求和响应。
`pytest-httpserver`是一个pytest插件,它允许你在测试期间启动一个轻量级的HTTP服务器,并模拟HTTP请求和响应。
|
存储 Java Go
巧用 Go Map 特性对数组或切片去重
本文介绍了如何利用 Go 的复合数据类型 Map 的特性对数组或切片进行去重。值得注意的一个地方是,在使用 Map 构建 Set 时,Value 的数据类型指定为 struct{},原因是后面在添加键值对的时候,指定的 Value 为空结构体 strcut{}{},空结构体不占用内存空间。
1092 1
巧用 Go Map 特性对数组或切片去重