在我们对PCU和DAU进行分析时,经常采用的方法是做一条曲线比较一下前后两个时期的数据走势,发现问题,进行分析,但是实际过程中,这样的做法远远不能挖掘这两个数据指标更多的内涵和知识。针对本文已经在论坛(http://www.dmacn.com/viewthread.php?tid=11&extra=)开设讨论区,欢迎各位讨论和提出建议。
今天说说如何运用箱线图进行这两个指标的分析,在此作为一个例子与大家分享,设计的文献和参考资料会给各位列出来,以便于各位查阅。
什么是箱线图?
维基百科给出的定义
(http://zh.wikipedia.org/wiki/%E7%AE%B1%E5%BD%A2%E5%9C%96):
箱形图(英文:Box-plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、下四分位数及上四分位数。
箱线图什么样?
箱线图的常用统计量
百度百科(http://baike.baidu.com/view/1326550.htm)
绘制须使用常用的统计量,最适宜提供有关数据的位置和分散的参考,尤其在不同的母体数据时更可表现其差异。
常用的统计量 :
平均数
中位数
百分位数
四分位数
全距
四分位距
变异数和标准差
从箱线图上我们会看到什么信息?
如下图所示为一个示意箱线图(维基百科),从这个图上我们可以读出一下的信息:
这组数据显示出:
最小值(min)=0.5。
下四分位数(Q1)=7。
中位数(Med)=8.5。(一段数据从小到大排序后,处于中间位置的数)
上四分位数(Q3)=9。
最大值(max)=10。
平均值=8。
四分位间距(interquartile range)=Q3 − Q1=2 (即ΔQ)
在区间 Q3+2ΔQ, Q1-2ΔQ 之外的值被视为应忽略(farout)。
注:四分位数就是将数据从小到大排序后,处于25%与75%位置的数为下上四分位数。
farout: 在图上不予显示,仅标注一个符号∇。
最大值区间: Q3+1.5ΔQ
最小值区间: Q1-1.5ΔQ
上下四分位数的波动范围:上下四分位数+1.5四分位差
最大值与最小值产生于这个区间。区间外的值被视为outlier显示在图上.
outlier = 3.5
为什么我们要用箱线图来分析PCU和DAU?
箱线图分析是一种很常用的分析方法,但是由于作图比较麻烦,如果不借助SPSS等专业统计分析软件作图,会不太方便,箱线图用于监控数据的波动。
在游戏的运营过程中,产生的数据必然存在异常值的情况,但是这些异常值在通过曲线形式的展现后由于会受到坐标比例的迷惑,使一些原本存在异常情况的数据掩盖了,有些问题进而不能发现,如下图所示:
两条曲线表现的是同一组数据,但是曲线的状态因为比例标尺的调整导致曲线的升幅发生了变化,这样一来,就容易迷惑DMA,很多时候异常值被忽略了,因此在做曲线的同时,如果精力允许可以做做箱线图比较一下,因为箱线图非常容易的识别数据中的异常值。异常值如果持续的被我们忽略,会对于我们的分析工作带来干扰因素,同时我们还要寻找异常值出现的原因,是开服,合服,服务器事故还是其他问题。有力的把握异常值分析是发现问题进而改进的绝佳时机。刚才提到了箱线图提供一个识别异常值的标准(MBALIB给予了分析):“异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。”
(http://wiki.mbalib.com/wiki/%E7%AE%B1%E7%BA%BF%E5%9B%BE)
那么这里大家可能有一个疑问,为什么距离是1.5倍?其实正如刚才所说的,这是一种经过大量分析和经验积累起来的标准,有一定的参考意义。“统计学中离群点为超出平均数±N个标准差的范围的数值。这个数值并非随意而定,其中运用的是统计学知识。
当一组数据为对称分布时,
约有68%的数据在平均数±1个标准差的范围之内
约有95%的数据在平均数±2个标准差的范围之内
约有99%的数据在平均数±3个标准差的范围之内
当一组数据未不对称分布时,
至少有75%的数据落在平均数±2个标准差范围之内
至少有89%的数据落在平均数±3个标准差范围之内
至少有94%的数据落在平均数±4个标准差范围之内
根据以上情况可以看出,如果某数值为离群点,那么该数值确实存在异常之处。“
(运营数据监控 BY小武 http://www.docin.com/p-239532559.html)
时间所限,今天先把第一部分整理分享给各位。之后把第二部分分析过程上传。