第2章
广告数据分析中的统计学原理
这一章将会涉及不少统计学的概念和术语,包括抽样、概率和分布、假设检验、相关和回归等,我将在介绍相关内容时引用大量广告投放和优化的类比和案例,帮助读者朋友在广告数据分析和统计学二者之间建立思维上的关联,这是一个循序渐进的过程。从全书结构来看,本章是整个广告数据分析方法论的理论基础,后面的章节将直接进行数据分析方法论的运用,理论部分将不再赘述。
2.1 抽样:总体、样本和误差
总体:是客观存在在某一相同性质基础上结合的若干个别事物的整体。
样本:就是按照一定的概率从总体中抽取并作为总体代表的一部分的集合体。
抽样:是指按照随机原则,以一定概率从总体中抽取一定容量的单位作为样本进行调查,根据样本的情况对总体作出具有一定可靠程度的估计与推断。
抽样的一个重要价值,就是可以在没有拿到全部数据的条件下对总体做一定的预测。当然,这是有一定误差的。但现实生活中,由于拿到全部数据的成本太高,总体包括了未来还没有发生的数据等多种原因,我们只能退而求其次做抽样,通过研究样本来估算总体。
为了进一步说明总体和样本的关系,下面举两个例子,不同情况下总体和样本的定义是有差异的。
例1:先讨论简单的情况。
在分析信息流广告创意的转化效果时,选取某天、某周、某月这类时间段的数据为分析对象,即为样本;如果把统计周期拉长,从该广告创意的首次投放到完全废弃,这样一个全生命周期内的数据作为分析对象,即为总体。
这里的总体,就是前面提到的总体,包括了未来还没有发生的数据。广告投放是一个相对稳定的过程,尤其当预算和流量达到一定量级时,稳定性就会越好。怎么理解这个稳定性呢?假设我们研究近一周的数据,算出日均获取流量、获客成本等多个数据指标,可以预见的是,如果我们什么都不做,未来短时间(1~2周)内,这些数据指标都是相对稳定不变的,而从未来长时间来看,由于受到媒体广告后台的规则限制、流量大盘变化等多因素影响,广告效果会越来越差。相信只要从事过一线广告数据优化的朋友,对这段话都会深有体会,这也是广告效果优化的立足基础,也是广告数据定量分析的价值所在。
例2:在例1的基础上,讨论较为复杂的情况,如图2-1所示。
在分析我们的优化策略是否有效时,通常会选取一条广告创意,分析在优化前后的转化效果是否有显著优化。如例1中所说,该广告创意的全生命周期内的数据为总体,但由于优化策略的执行,原来的总体可能发生了质的变化,此时应以“优化操作”为分界线,将原来的总体一分为二,广告创意首次投放(或者是上一次优化)到本次优化操作前的全部数据为一个总体,优化操作后到广告创意完全废弃这段时间的数据为另一个总体。而在优化操作前后各选取的用来做对比分析的数据,即为样本。
这里选取的样本,分别代表了优化操作前后的总体的广告效果。对比结果大致有三种可能,优化操作后广告效果没有显著变化、显著变好、显著变差。怎样才算达到“显著”的程度,将在2.5节具体介绍。无论结果如何,我们做广告数据分析的总体已经重新确定,即优化操作后到广告创意完全废弃这段时间的数据,而且我们观测的仍旧是样本数据。如果以后有新的优化操作,则总体又将被分割为两部分,如此循环。
抽样误差:是指用样本统计值与被推断的总体参数出现的偏差。
只要是样本数据,就会存在抽样误差。抽样误差的大小依赖于得到样本的方式和样本中包含的观测个数。样本越大,误差越小。如果样本等于整个总体,则样本比例就等于总体比例。
所以,在公布任何一次基于样本数据得到的结论前,都应说明抽样误差的大小,无论是比例、均值还是其他形式。
例如,某条信息流广告创意有36432的曝光量,1128的点击量,计算的点击率为3.1%(±0.18%),这里的±0.18%即为抽样误差,差不多是3.1%的1/20。抽样误差具体怎么计算的,在2.4的参数估计部分再作介绍。
抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性,那么以样本对总体进行估计就没有逻辑基础。
试想,如果我们对比优化操作前后的广告效果时,优化操作前的样本数据不能代表历史的广告效果,或者优化操作后的样本数据不能代表未来的广告效果,那么数据分析的结论与真实情况将会有较大的偏差,对下一步的优化策略来说可能不是指导而是误导了。
于是,我们在选取样本数据时,应注意下面几点:
第一,应尽可能选取优化操作前后相邻的数据。
这里,其实是有一个广告数据分析的前提假设,假设其他条件不变(或者说是相对稳定),优化操作则是唯一的变量,对比前后的数据即可判断优化是否有显著效果。取优化操作前后越近的数据,就越能保证假设的准确性。比如,优化操作前一周的数据和优化操作后一周的数据。
第二,样本数据的积累不仅要看时间长短,更要看样本量的大小。
比如,只对比优化操作前一天和后一天的数据,受偶然性的影响效果会比较大,以优化操作后第一天的数据作为样本,对总体的代表性也会差很多。另一方面,无论任何抽样方式,抽样误差都是难以避免的,只有当样本量足够大,抽样误差才相对稳定、相对较小,对于总体的代表性也较好。
第三,如果样本数据中出现某些特别高或特别低的奇异值,应将其剔除。
如表2-1所示,我们选取优化操作后一周的数据作为样本。
从表中不难看出,第一天至第七天的展现量是相对稳定的,但第六天的点击率是明显偏高的,这个数很可能是奇异值,应从样本数据中剔除,剔除之后展现量累计不够的话,则可以顺延至第八天。
一般来说,广告数据是相对稳定的,如果出现这种奇异值,多是受到大盘流量、竞争对手的广告投放等多因素影响。而这些因素恰恰是我们做广告数据定量分析前假设相对稳定不变的,一旦出现这样的情况,说明分析的前提是不存在,得到的样本数据自然也是没有代表性的,应作相应的数据处理。
2.2 概率
如上一章提到的,概率简单来说就是一个数。更确切地说,它是一个0和1之间的数,用来描述一个事件发生的经常性。小概率(接近0)的事件很少发生,而大概率(接近1)的事件经常发生。
为了说明统计的基本观念,如果我们对某事物进行多次观测,大多数情况下会得到不同的结果。例如:同一SEM账户,昨天账户整体CTR是一个2.8%,今天的CTR则是3.0%,明天可能又会是3.1%,这种小幅度的波动是因为这个变量(即CTR)具有随机性。
概率的统计定义
在相同的条件下①随机试验n次,某事件A出现m次(m≤n),则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,记为:
P(A) = n/m = p
在广告数据分析中,一些常见的数据指标,包括点击率、转化率、流失率等都是统计意义上的概率,都是通过对一定量的样本观测得到的。
注意:①在相同的条件下。这一点在广告优化实践中是很难做到的。以手机百度这一媒体为例,MAU高达5亿多,DAU是1亿多,这意味着,除少部分重度用户每天都在使用外,大多数用户一个月内只有可能不到一半的时间能看到某个广告主的广告。所以我们的总体是不变的,但每天观测得到的样本都不一样了。所以,广告优化实践中我们只能尽力保证能控制的部分保持稳定,比如落地页、广告创意、定向等,以此来观测样本、统计概率,进行数据分析。
2.3 概率分布
大部分用于统计分析的数据来自于连续变量,即在任意两个值间还有其他的值,故这里只讨论连续变量的概率分布。
最重要的是标准正态分布(z变量),t分布(t变量),图2-2以标准正态分布为例,具体阐述一下。
2.3.1 正态分布
正态分布,也称“常态分布”,又名高斯分布。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
请不要被公式吓到,简而言之,正态描述的是某一变量v的概率分布,又因为概率的统计定义,通常以分布占比替代概率分布。横坐标上的X就是变量v的取值,f(x)就是对应变量不同取值(即x)的占比。
当随机变量X服从正态分布时,我们用X~N(, ^2)表示,其中为变量X的均值,为变量X的标准差。
如图2-3所示,正态分布中大部分数据集中在平均值附近,小部分在两端。均值±3个标准差已经可以包括99.7%的情况了。
对于我们做广告数据分析,最重要的是均值,不论是平均点击量、平均点击率,还是平均转化量、平均转化率。
举个例子,图2-4是某SEM广告各关键词CPC分布占比,大致上符合正态分布,大多数关键词的CPC处于中间均值附近水平,不过集中度相对较低。
同理,各关键词的转化成本、广告目标受众的转化可能性等分布基本也符合正态分布。
2.3.2 标准正态分布
标准正态分布实际上是在正态分布基础上,经过一些较为复杂的数学计算,将均值处理为0,标准差处理为1的正态分布。
标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。
例如,X~N(, ^2),则Z=(X – )/~N(0, 1),这也是将一般正态分布转化为标准正态分布的公式。
如图2-5所示。我们可以看到,大部分z变量的值在–2.00到2.00之间变动;特别是,95%的z变量的值在–1.96到1.96之间变动。这个值很重要,后文会用到。
正态分布应用有多广泛?或者说,为什么我们可以假设这些数据都基本符合正态分布。这里需要介绍一个统计学的重要理论:中心极限定理,它也是很多统计分析的理论基础。
2.3.3 中心极限定理
中心极限定理其实就是下面两句话:
1)任何一个样本的平均值将会约等于其所在总体的平均值。
2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
请不要小看这么简单的两句话,这对于帮助我们理解整个广告数据定理分析的理论基础有着至关重要的价值。基于中心极限定理,在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。而且不用计较样本数据是什么分布,多组样本的平均值的分布是近似正态分布的。
换句话说,因为广告创意在未来还将继续投放,在没有拿到全部数据之前,我们不知道总体的广告效果会是什么样的,那我们怎么判断是否应该继续投放呢?对于大多数广告优化从业人员来说,这是一个无需思考的问题,但实际上蕴含着丰富的分析价值。大多数人的答案都会是,看历史数据就可以判断。如果继续追问,为什么历史数据就可以判断呢?很多人就答不上来了。
之所以我们可以根据历史数据(样本)来估算未来的广告效果,就是因为中心极限定理的存在。只要我们在选取样本数据时严格遵循2.1节中的3点规范,同时样本量足够大,它的分布都是近似正态分布的,都是可以用同一个公式来计算的。
比如,广点通渠道某广告创意的点击量是11076,转化率是8.4%(±0.52%);今日头条渠道某广告创意的点击量是8659,转化率是6.3%(±0.51%)。虽然是不同的渠道,不同的广告位,但统计指标的计算逻辑是一样的,转化率的抽样误差也是可以用同一个公式计算的,两个渠道的转化率是可以做对比分析的。这一点,对于多广告渠道的综合效果评估有非常重要的价值。
2.4 统计推断:估计
超越实际数据是统计学的一个分支,被称为统计推断。它由估计和假设检验组成。
本节讨论的是参数估计,假设检验会在下一节中讲解。
我们进行数据分析时,之所以用样本替代整体,主要原因是:在一般情况下,没有办法收集到总体中的全部个体数据,即便能,所需的时间也会比较长,花费也是高昂的。
尽管样本中的信息并不完全,抽样误差也无法避免,我们依旧要重视样本数据的分析。同时,为了弥补样本结果的不准确性,我们需要计算抽样误差。
2.4.1 估计:用样本数据预估总体
这里要介绍两个新概念。
样本统计量:是从样本数据中计算出来的数。
比如样本均值、样本百分比等。
总体参数:是在原理上可以从整个总体中计算出来的数。
比如总体均值、总体百分比等。
“估计”做的事情就是,通过样本统计量去估计对应的总体参数。
大家不用纠结于新概念的理解,它本质上还是用样本数据去估算总体的情况,只不过明确了到底是用样本数据中的哪一指标。例如,我们以某广告创意的历史一周的点击率数据,可以预估未来一周的点击率情况;此时,历史这一周的平均点击率即为样本统计量,历史和未来整体的平均点击率即为总体参数。
2.4.2 区间估计
统计学上常用的估计方法论有两种:点估计和区间估计。
点估计:是一个用来估计总体参数的数。
区间估计:又称为置信区间,是用来估计参数的取值范围的。
点估计应该是我们最常用的方法,无论媒体广告后台的数据,还是我们平时做广告数据分析,计算点击率、转化率、转化成本的时候,用到的几乎都是点估计。
点估计的优点显而易见:
- 逻辑清楚,容易理解;
- 使用方便,哪怕需要二次计算也很简单;
- 业内已形成标准,接受度高。
但点估计也有其天然的局限性,它是以一种静态的视角看数据指标,所以解释不了诸如下面的问题:
1)数据量小的时候,各种指标波动程度较大。要等数据积累到一定量的时候,数据指标相对稳定了,才能开始做数据分析。优化人员常常面临“两难”的境地,数据积累不够,做分析容易被误导,而积累过多又会导致预算的部分浪费,所以应该待数据积累到多少时,恰好足够数据分析所用?
2)一个优化策略的执行,使得转化率从5.6%提升至6.1%,转化成本从32.5元下降至29.7元,这次的优化算不算是成功的?
这时就需要用到区间估计了。无论是点估计,还是区间估计,理论基础其实还是抽样,根据抽样取得的样本直接计算的概率,其实就是点估计。如果同时考虑抽样误差,就是区间估计。区别于点估计,区间估计是以一种动态的视角看数据指标的,此刻的指标不再只是一个数,而是一个取值范围(点估计±抽样误差)。
如此一来,刚才提出的两个问题也有了很好的解释。
1)随着数据的不断积累,抽样误差会趋于稳定,且抽样误差的相对占比会趋于变小,当小到一定程度(5%或者3%,根据数据分析需求自定义)时,再开始数据分析是比较合适的。
2)转化率5.6%、6.1%,都需要加上一个抽样误差,即数据波动的范围,假设这个抽样误差都是0.2%,那优化前的转化率区间为[5.4%,5.8%],优化后的转化率区间为[5.9%,6.3%]。简单来看,优化后的最低水平5.9%仍高于优化前的最高水平,因此可以得出这次优化是成功的结论。
讨论完区间估计的现实价值,接下来介绍其计算方法。
对于大多数总体参数来说,估计区间是用如下方法得到的:
- 找到样本统计量,如均值或者比例,这一步骤相当于是点估计的计算;
- 从数据中计算出抽样误差;
- 用样本统计量加、减抽样误差就得到了区间估计的两个端点。
回到前文的例子,某条信息流广告创意有36432的曝光,1128的点击。点估计可得点击率为3.1%;置信水平为95%的情况下,区间估计得到的点击率则是一个范围,即2.92%~3.28%。这里的95%指的是我们有95%的把握相信这条信息流广告创意总体的真实点击率在2.92%~3.28%。
例子中提到95%的置信水平,是与区间估计绑定的一个概念。如果我们收集了多组不同的样本,并对每个样本都构造了一个置信区间。其中有95%的区间包含真值,5%的区间不包含真值,那么这个构造的置信区间就叫作置信水平为95%的置信区间,简称95%置信区间。
下面介绍区间估计的具体算法。主要列举了两种数据分析需求:总体比例的置信区间、总体均值的置信区间。
2.4.3 总体比例的置信区间
总体比例的置信区间:通过样本数据计算的比例,估计总体的对应比例的取值范围。
主要适用于用户转化漏斗各环节的转化率估计,比如点击率、点击下载率、下载安装率、安装激活率等。
从统计学角度来看,总体比例的置信区间是:
从一个大的总体中抽取一个由n个观测值组成的随机样本,点估计的结果是p。
那么我们可以得到总体百分比的一个95%置信区间。该区间为:
1.96这个值来自正态分布,2.3.2曾提到,有95%的z值落在–1.96到1.96之间,从而构成了一个95%的置信区间。
还是之前的例子,某条信息流广告创意有36432的曝光,1128的点击。
带入总体比例的置信区间的计算公式,p = 1128/36432 = 3.10%,n = 36432。
抽样误差为:
于是可以得到,这条信息流广告创意的点击率95%的置信区间为(3.10% – 0.178%,3.10% + 0.178%),即2.92%~3.28%。
2.4.4 总体均值的置信区间
总体均值的置信区间:通过样本数据计算的样本均值,估计总体的对应均值数的取值范围。
主要使用于估计流量的大小,比如点击量、下载量、注册量等。不可用于估计类似于广告消费等人为因素较大的指标,也不可用于估计类似CPC、CPD等二次计算的指标。
严格来说,要根据总体是否服从正态分布、总体方差是否已知、是大样本还是小样本的不同情况来具体分析。但在优化实践中,往往使用历史的样本数据预测未来的情况,总体包括未来一段时间的数据,有一定的不确定性,总体是否服从正态分布和方差多少都无从得知,但大样本是基本可以确定的(一般n≥30就可以算作大样本)。
还记得中心极限定理吗?只有当样本量n充分大时,样本均值–x的抽样分布近似服从正态分布。
此时,总体方差2就可以用样本方差s2代替。
那么我们可以得到总体均值的一个95%置信区间。该区间为:。
举一个广告优化的例子。如表2-2是某App在360应用商店两个月的注册量数据。
以此作为样本数据,估计总体均值(即某App在360应用商店日均注册量的范围)。
首先,样本量n=60,确定是大样本无疑;
然后,计算样本方差为61.56*61.56;
最后,带入总体均值的置信区间的计算公式,样本均值 –x=160.2,
样本量n=60,s=61.56,
抽样误差为
于是可以得到,该App在360应用商店日均注册量95%的置信区间为(160.2 – 15.6,160.2 + 15.6),即144.6~175.8。
这个例子很有代表性,我们可以看到抽样误差有点大,差不多接近均值的10%了。2017年4月和5月的数据分布有较大的差异,这是因为4月底到5月初的时候执行了新的优化策略,严格意义上来说,这两组数据不能算作同一个总体,应该分开讨论。
4月:n=30,样本均值为109.5,样本方差为30.9*30.9,抽样误差为?1.1;
5月:n=30,样本均值为210.8,样本方差为38.7*38.7,抽样误差为?3.8。
乍一看,第二个月的抽样误差更大,但要看到样本均值几乎翻番,抽样误差的相对大小不过6.5%。
哪怕我们只看两组数据的均值,210.8和109.5,就可以得出优化效果显著的结论。但这只是优化的第一阶段,效果很明显;如果继续优化,日均注册量从210.8提高到233,增幅达10.5%。这时仅凭平均值比较,很难评估优化效果是否显著,而计算抽样误差和置信区间就成了帮助我们精益评估优化策略效果的利器。
2.5 统计推断:假设检验
任何概率都是建立在某种假设为真的前提下的。
再次列举1.2.1节中的例子,对于某个日均UV上万的页面做A/B测试,原始版本的UV为10000,转化率是5.6%,试验版本_1的UV为10000,转化率是6.4%。
首先要对我们研究的对象作出某种假设,这里我们假设的是试验版本_1和原始版本的转化率是没有显著差异的;
然后收集数据,在该假设的基础上计算假设成立的概率(这里隐去计算过程,直接得到概率是p=0.0087);
最后,如果这个概率p非常小,统计学上一般以0.05意味着该事件几乎不可能发生。这里其实用的是数学上反证法的逻辑,当一个事件是不可能发生的或者说是错误的,那么这一事件的相反事件就是确定发生的或正确的。
于是,当p值的小于0.05时,我们认为这一事件(试验版本_1和原始版本的转化率是没有显著差异的)是几乎不可能发生的,所以之前所作的假设是错误的。再进一步,原假设的相反假设是正确的。我们的计算结果是p=0.0087,可以得出“试验版本_1和原始版本的转化率是没有显著差异的”这一假设是错误的,即“试验版本_1和原始版本的转化率是有显著差异的”,换句话说,A/B测试是成功的。
2.5.1 简单好用的p值
p值在统计学中是一个很重要的概念,基本定义就是在总体某些假设下,观测值或更加端值出现的情况。
请看图2-6。前文提到,z变量的值介于–1.96~1.96之间时,已经涵盖了95%的可能结果,那剩下的5%就是几乎不可能发生的,而一旦发生,那就可以拒绝原假设,即原假设是错误的。
我们用1.2.1节的例子做计算和演示。
2.5.2 两个总体比例之差的显著性检验
从统计学的角度来说,这个问题属于两个总体比例之差的显著性检验。同样的,后面还可能涉及两个总体均值之差的显著性检验。这两个显著性检验也就构成了互联网业内适用面最广的A/B测试的理论基础。
公式如下:
代入1.2.1例子的具体数值,得出:
p1 =6.4%,n1=10000;p2=5.6%,n2=10000;
计算得z = 2.38,或者把p1和p2换个位置,就得到z = –2.38。
此时的z值是大于1.96和小于–1.96的,属于那剩下的5%的情况。所以可以做出判断,原假设是错误的,相反的假设是正确的,即“试验版本_1和原始版本的转化率是有显著差异的”,换句话说,A/B测试是成功的。
再深究一点,此时的p值是小于0.05的,具体是多少?
这里需要用到z值的分布表,大家可以在任何一本统计学教材的附录或者百度上找到它。
还记得刚才计算的z值吗?对,2.38,在图2-7的分布表中,我已经把它圈出来了,对应的概率是1 – 0.9913=0.0087。
注意:我们之前讨论的一直是双边检验,就是说试验版本可能比原始版本更好,或者更差。
左边0.025加上右边的0.025,才构成剩下的5%。
在广告优化中也是如此,我们的优化策略可能使效果更好,也可能更差。
所以,刚才的0.0087还需要乘以2,得到0.174,这才是真正的p值。
这里给大家分享一个在线的小工具,可以非常简单地计算出两个总体比例的显著性差异,如图2-8所示:https://vwo.com/ab-split-test-significance-calculator/ 。
第一列是Control,即控制组(原始版本),在广告优数据分析中用于对比参照的样本;
第二列是Variation,即试验组(试验版本),是优化操作后所得到的数据;
第一行Number of Visitors,是指流量数;
第二行Number of Conversions,是指转化数。
接下来,我们用数据演示一下,如图2-9所示。
在Control和Variation两列,输入对应的数据,控制组是 10000和560,即为流量是10000,转化量为560,转化率为5.6%;试验组是10000和640,即为流量是10000,转化量为640,转化率为6.4%;
下面的p值显示为0.009,是不是很接近我们刚才计算的0.0087;Significace显示Yes,说明是有显著性差异的。
这个工具还可以帮助我们找到临界值,比如转化率从5.6%提升到6.4%是显著优化的,但其实应该不用到6.4%就可以满足显著性差异,这个临界值是多少呢?
我们把Variation列的Number of Conversions不断调小,最终找到临界值是6.15%,如图2-10所示。换句话说,只要我们的优化操作能在同样10000的流量前提下,将转化率提升至超过6.15%,就可判定试验组是显著优于控制组的,即优化是显著有效的。
两个总体比例之差的显著性检验的适用范围很广,凡是需要对比优化操作前后的广告效果时,这种显著性检验能很方便快捷地得到结论。同时,要注意这种方法论以及工具的局限性—只能对两个总体比例做检验。包括但不限于:点击率、激活率、注册率等转化率的数据指标,不包括展现量、点击量、注册量、线索量等流量的数据指标。
2.5.3 两个总体均值之差的显著性检验
这里只列举公式,不再举例阐述了。
检验统计量 Z的值:
:样本1的均值;:样本2的均值;
S1:样本1的标准差;S2:样本2的标准差;
n1:样本1的样本量;n2:样本2的样本量。
区别于两个总体比例之差的显著性检验,两个总体均值之差的显著性检验的适用范围相对窄很多,包括展现量、点击量、注册量、线索量等流量的数据指标。
2.6 变量间关系
这里先讨论两个变量间的关系,多变量间的关系本书涉及不多,遇到具体问题时再作介绍。
分析由两个变量控制的数据,主要目的是回答以下四个重要问题。这些问题为我们研究变量间的关系提供了分析框架。
问题一:从数据来看,变量间有关系吗?
首先我们要尝试确定统计的数据中是否包含某种关系,如果发现确有关系,则继续回答后面的问题。
问题二:如果变量间有关系,这个关系有多强?
如果数据间存在某种关系,我们就可以试着去确定这种关系有多强。变量间的关系可能强,可能弱。
问题三:是否不仅在样本中,在总体中也有这种关系?
虽然我们分析的是样本数据中的两个变量,但实际上我们对总体更感兴趣,通过数据分析得出的结论是否能推广到总体,具有现实意义。有时问题三还可以换一种说法:这个结果是完全由偶然因素引起的,还是受某种系统影响而产生的?
问题四:这个关系是不是因果关系?
这是最难回答的一个问题,但它往往也是最重要的。我们不知道观测到的这两个变量间的关系是否由根本就没被考虑进来的一些变量引起的,就像下面提到的这个冰激凌与犯罪的经典统计学故事。
在美国中西部的一个小镇上,人们发现一个很有趣的但不合逻辑的现象,就是冰激凌的消费量越高,犯罪率就越高。这时候有人在想,如果通过人为控制来改变冰激凌销量,是否可以影响犯罪率的高低。
答案是否定的。常识告诉我们,冰激凌与犯罪行为无关,之所以在统计上存在正相关是因为天气。
冰激凌的销量与天气紧密相关,天气越热销量越高;同时,天气越热,人越容易在室外活动,越容易开窗(导致偷盗概率增加),人的心情也越烦躁(导致冲动型犯罪增加)。
故事中,看似相关的两个变量(冰激凌的销量、犯罪率)是高度相关的,但绝不等于说该关系是因果关系,实际上它们都是受第三个变量(天气)的影响。
在研究变量之间的关系时,通常把变量分为两种:自变量和因变量。当我们分析一个系统(或模型)时,可以选择研究其中一些变量对另一些变量的影响,那么我们选择的这些变量就称为自变量,而被影响的变量就被称为因变量。在广告优化实践中,较为可控、偏前端的数据指标多为自变量,如出价、创意、广告定向等;较为不可控、偏后端的数据指标多为因变量,如转化率、成本等。
回到因果关系的问题,为了判断自变量与因变量之间的关系是否为因果关系(一旦样本数据中两个变量之间的关系可以代表总体)我们应该:
1)用常识来判断这种关系是否有现实价值;
2)注意自变量是否发生在应变之前;
3)如果可能,尝试适当调整自变量,观察因变量的值是否会受影响;
4)即使自变量是决定变量的原因,也要意识到,是否存在没有被考虑到的、可能对因变量有影响的其他变量。
2.7 自变量和因变量之间的关系
我们在第一章中已经介绍过,变量有三种类型:数值型变量、顺序型变量、分类型变量。
自变量和因变量不一定是同一种变量,所以二者就有9种(3×3)可能的组合关系。如图2-11所示:
本书所介绍的广告数据定量分析的内容,主要涉及的是图中标“*”的两类,即:
1)自变量是数值型,因变量是数值型。比如,CPD出价对下载量的影响;关键词出价对CPC的影响等。
2)自变量是分类型,因变量是数值型。比如,广告定向中的性别、城市、操作系统对信息流广告创意展现量、点击量的影响等;工作日和非工作日对转化成本的影响等。
下面将分别阐述。
2.8 两个数值型变量的关系
这里要涉及回归分析和相关分析,这两种统计方法可以回答一些明确定义的数值型变量间的关系。
回归分析描述的是一个或多个自变量的变化是如何影响因变量的一种方法。
相关分析描述的是两个数值变量间关系的强度。
2.8.1 相关分析
对于两个数值型变量,我们一般总用一个图来分析这些数据。
如图2-12所示,称为散点图。水平的x轴为自变量,垂直的y轴为因变量,图上每一个点代表一个观测值。
以某App在小米应用商店广告优化为例,来看一下精品广告下载量与总激活量是否有相关关系。
这个散点图直观表明,精品广告下载量越高,总激活量也越高。图2-12中点的趋势说明两个变量间确实存在一定的关系。
当这些数据沿一条直线排列时,我们可以计算一个系数来衡量两个变量间的关系。对于两个数值型变量,计算出来的系数记作r,我们一般称之为相关系数,或是线性相关系数。非线性相关不是本书讨论的重点。
r的取值为–1到+1,–1代表两个变量是完全的负线性相关关系,+1代表两个变量是完全的正线性相关关系,0代表两个变量不存在线性相关关系,越接近1说明两个变量的关系强度越高。
两个数值型变量的r值介于0.7~1.0,代表了一个很强的正相关性;r值介于0.3~0.7,代表了一个较强的正相关性;r值介于0~0.3,代表了一个较弱的正相关性。r为负值时,同理类推。
下面我们通过几个散点图来看看为什么散点图的不同趋势会导致不同的r值。
这四个不同的散点图,每个有100组观察值。这些数据都是我用Excel生成的,并没有实际意义,但为模拟广告数据分析的真实场景,依然加上了横轴坐标轴。
在图2-13中,这些点的排列有明显的规律,我们可以看到一种从左下角到右上角的明显的直线趋势。这些点沿对角线呈一种规则的分布,两个变量间的关系应该很强,相关系数也证实了,r=0.97。
在图2-14中,这些点不像图2-13中那样明显的排成一束,但从散点图中我们仍然可以看到一种确定的正相关,相关系数r=0.70。
在图2-15中,相关系数r=0.52,这意味着一个较弱关系,从散点图上几乎很难看出两个变量之间是否相关。
对于图2-16,这些点是随机散布的,两个变量之间几乎没有什么关系。
2.8.2 回归分析
相关分析的目的在于评估变量之间的关系强度,具体的评价指标就是相关系数r。而回归分析侧重考察变量之间的定量关系,并通过一定的数学公式将这个定量关系描述出来,进而确定一个或几个自变量的变化对另一个因变量的影响程度。
回归分析的核心价值在于“预测”,即通过对历史数据的分析,构建可以预测未来因变量值的数学公式。
图2-17在图2-16的基础上,加了一条穿过这些点的中心的直线,这条直线就是回归直线。
如果擦去这些点而只保留直线,我们仍然可以很清楚地了解精品广告下载量和总激活量的相关性。
图2-17中的回归直线在y轴上有一个截距,也就是说,当x=0时,回归直线与y轴相交的那一点。同时可以看到,我已经用Excel计算出回归直线的方程(在散点图的图表元素中添加“趋势线”,设置为线性,并且显示公式):
y = 0.6723 x + 6976.6
如同这些点有一个正相关性(r=0.87),这条回归直线从图的左下角到右上角有一个正的斜率(0.6723),这意味着在一定范围内,随着精品广告下载量x每增加1000个,总激活量y大约增加672个。
一条回归直线的方程可以写作:
用公式表达即为:
回归直线在一定程度上描述了变量x与y之间的定量关系,根据这一方程,可依据自变量x的取值来估计或预测因变量y的取值。但估计或预测的精确度如何是取决于回归直线对样本数据的拟合程度。
各散点越是紧密围绕直线,说明回归直线对样本数据的拟合程度越好。想象一下,如果图2-17中的散点都落在回归直线上,那这条直线就是对数据的完全拟合,这时用x的值来预测y的值是没有误差的。
回归直线与各数据点的接近程度称为回归直线对样本数据的拟合优度,一般需要计算判定系数R2来度量。
我们可以看到,y的取值是有波动的,统计学上称为变差。它的产生来自两个方面:一是自变量x的取值不同造成的;二是除x之外其他因素(如抽样误差、其他可能影响y的变量等)的影响。
判定系数R2的计算原理其实是看y值的变差有多大比例来自x与y之间的线性关系。
如果所有的数据点都落在回归直线上,则R2 = 1,拟合是很完美;
如果y的变化与x无关,则x完全无助于y的变差,则R2 = 0;
如此可见R2的取值介于0~1之间,越接近1,表明x与y之间的线性关系对预测y值的贡献越大,拟合程度就越好。
判定系数R2的计算原理不是重点,下面我用Excel计算前文的“精品广告下载量与总激活量”的回归方程的判定系数,具体操作方法是Excel的“数据”菜单栏–数据分析–回归,如图2-18所示。
可以看到,计算结果呈现出3个部分。
第一部分主要包括:
- Multiple R(相关系数r);
- R Square(判定系数R2);
- Adjusted R Square(调整后的判定系数R2);
标准误差(用回归方程预测因变量y时预测了误差的大小,各数据点越靠近回归直线,标准误差越小,回归方程进行的预测也就越准确)。
第二部分可以忽略。
第三部分主要包括:
Coefficients(系数,或者叫参数。在线性回归方程中,即为变量的斜率);
回到刚才的回归方程,y = 0.6723 x + 6976.6,与图2-18中的两个系数是一致的。
相关系数r=0.87,判定系数R2=0.76,标准误差=1301。
现在解读一下,这几个数字的现实价值。
在小米应用商店广告优化中,精品广告下载量和总激活量是有很强的相关性的(r = 0.87);根据回归方程,可以知道精品广告下载量x每增加1000,总激活量y大约增加672;根据精品广告下载量x来预测总激活量y时,平均的估计误差在1300左右,结合y的取值范围是10000~20000,这个误差比例不到10%;在总激活量的波动中,有76%可以由精品广告下载量与总激活量之间的线性关系来解释。
这个预测准确度其实已经不错了,但还有提升的空间。比如,影响总激活量波动的因素有很多,只考虑精品广告下载量很明显是不够的。如果能同时考虑更多的因素,包括其他主要广告位的下载量等,就能使总激活量的预测效果有一定的提升。
需要区分一点。我们刚才讨论的都是一元线性回归,即只有一个自变量和一个因变量。
广告数据分析中,还可能遇到多元线性回归的问题。我们将在第五章中以案例的形式具体介绍,比如用多类广告位的下载量(精品、搜索、排行榜等)来预测总激活量。
细心的朋友还会留意到,判定系数R2之外还有一个调整后的判定系数R2。两者的区别在于,前者适用于一元线性回归,后者适用于多元线性回归。
2.9 分类型变量和数值型变量的关系
我们在广告优化实践中,经常会遇到广告定向的问题。
比如要不要限制广告投放受众的性别、城市、操作系统等,限制包括控制出价、仅投放某类特定人群等,以期获得更好的广告效果。
这时我们分析的就是分类型变量(广告定向、广告设置等)和数值型变量(流量、成本)的关系。统计学上最常用的数据分析方法叫作方差分析,从形式上看,方差分析是检验多个总体的均值是否相等的统计方法,但本质上它研究的是分类型自变量对数值型因变量是否有显著影响。
以多推广渠道的用户质量评估为例,如表2-3所示,某App在各应用商店推广渠道一个月的激活注册率。激活注册率=注册量/激活量,一定程度上可以反映获取的新用户质量。
我们要问的第一个问题就是,数据中的两个变量之间是否存在差异,即不同推广渠道的App激活注册率是否真的有差别。
为了更容易地找出各推广渠道之间激活注册率的不同,我们需要一种比散点图更简单的图。如图2-19所示,在箱形图中,把每一个推广渠道的数据用5个数代替,分别是最大值、最小值、第75分位点、第25分位点、中位数。
箱形图增强了不同推广渠道之间的可比性,接下来我们一起来看看从图中可以获悉哪些信息?首先应该来对比不同推广渠道的中位数,因为它们代表中心值。中位数由箱形图中间的横线代表,可以发现应用宝、vivo应用商店、OPPO应用商店三个渠道的中位数最高,接近于35%。因此初步判断这三个渠道的平均激活注册率最高。同样,可以看到小米应用商店、豌豆荚、百度手机助手、360手机助手等几个渠道的激活注册率是较低的。
箱形图的另一个特征是箱子的高度,高度越小,说明分布越集中。例如,小米应用商店的箱子比其他渠道要短,这意味着该渠道内不同日期之间的激活注册率比其他渠道要更稳定。
第一个问题的答案已经出来了,从图中可以直观地看出,不同推广渠道和App激活注册率这两个变量之间存在关系。
第二个问题是,我们还需知道这两个变量之间关系的强度,以及这个关系是否可能出于偶然。要回答这个问题,就需要使用方差分析。
不同推广渠道的激活注册率不尽相同,究其原因是它同时受到自变量和残差变量的影响。方差分析可以帮助我们将其定量化。自变量在这个例子中就是不同渠道,残差变量是除自变量之外能够对因变量(激活注册率)产生影响的变量。
渠道变量和残差变量的总效应 = (每一个观测值–总均值)2之和
自变量的效应 = (每一组的均值–总均值)2 之和
残差变量的效应 = (每一个观测值–所有组的均值)2 之和
图2-20是我用Excel计算得到的方差分析结果,具体操作方法是Excel的“数据”菜单栏–数据分析–方差分析:单因素方差分析。
图2-20的上半部分是不同渠道的描述统计,包括观测值、求和、平均值、方差。下半部分是我们关注的重点,差异源这一列包括组间、组内和总计,对应刚才介绍的自变量、残差变量和总效应。SS这列为平方和,即为效应的具体值。可以简单计算一下,自变量(不同渠道)的效应占比是0.6794/1.0167=66.8%。
这个比例0.668称为R2,这个数是可以与回归分析中相关系数的平方直接对比的。换句话说,已知R2是0.668,取平方根后,R就应该是0.817,可以近似理解为这是两个变量(不同渠道、激活注册率)之间的相关系数。R=0.817,可知不同渠道和激活注册率之间具有很强的关系。
至此,还剩下最后一个问题。这两个变量之间的关系是偶然的吗?
图2-20下半部分的p值列,又看到我们熟悉的p值了。可知p值是5.51758 * 10–46,远远小于0.05。说明,不同渠道和激活注册率之间的关系是确实存在的,是超出偶然机会可以解释的范围的。
方差分析的适用范围非常之广,凡是涉及分类型变量和数值型变量的关系,都可以考虑使用。下面列举一种代表性的需求场景,供大家参考。
需求场景:评估各类广告定向对广告效果的影响程度。
我们都知道,广告定向对于广告优化是非常有价值的,但现在主流的广告媒体广告平台提供的广告定向如此丰富,少则5~8种,多则10~20种,使人眼花缭乱。选取哪些广告定向进行投放测试,除了广告主能提供一定的数据指导外,更多是依赖广告优化人员的个人习惯和经验。而方差分析可以帮助我们更方便和科学地实现这一需求。
首先,根据广告主的数据参考以及优化人员的经验,选取3~5类广告定向进行投放测试。不同的广告定向即为自变量。
其次,确定用于评估广告效果的数据指标是转化率,还是转化成本。这些用来评估广告效果的数据指标即为因变量。
最后,待数据积累到一定程度,一般应保证每一组的点击量在10000以上,开始做方差分析。可以计算出不同广告定向和广告效果的相关系数,即代表前者对后者的影响程度。
对于广告优化的指导是,投放测试首选应选取对广告效果影响较大的广告定向。而确定了某一广告定向后,比如性别,到底是投放男性用户的广告效果更好,还是投放女性用户的广告效果更好,就可以用两个总体比例或两个均值之差的显著性检验了。
2.10 本章小结
本章介绍的是广告数据分析中的统计学原理,对应广告数据从获取到处理,再到分析和得出结论的全流程,其实都有统计学的方法论贯穿其中。读完本章内容,我不希望大家陷入公式和定义的“泥潭”,而是希望大家能结合广告优化实践活学活用,哪怕暂时理解不了也没关系,先把公式、工具掌握了,随着本书内容的不断展开,我们对广告数据定量分析的认知也将更加深刻,很多问题自然而然就理解了。