Netflix 是如何做决策的? | 4. A/B 测试结果之假阴性和统计功效

简介: Netflix 是如何做决策的? | 4. A/B 测试结果之假阴性和统计功效

这是 Netflix 关于实验和决策的系列文章,系统介绍了实验对于 Netflix 的重要性,实验的最主要工具--A/B 测试,数据科学和文化在实验与决策过程中的重要性等。整个系列共七篇文章,这是第四篇。原文:Interpreting A/B test results: false negatives and power[1]


  1. Netflix的决策制定
  2. 什么是A/B测试?
  3. A/B测试结果之假阳性和统计显著性
  4. A/B 测试结果之假阴性和统计功效👈
  5. 在做决定时建立信心
  6. 实验是数据科学的主要关注点
  7. 学习的文化


这是关于 Netflix 如何基于 A/B 测试来做出决策并不断创新产品的系列文章的第四篇。想看前面的文章?参见第一部分(Netflix的决策制定)第二部分(什么是A/B测试?)第三部分(假阳性和统计显著性)。接下来的文章将详细介绍 Netflix 的实验,Netflix 是如何投资基础设施来支持和扩大实验的,以及 Netflix 的实验文化的重要性。

第3部分:假阳性和统计显著性中,我们定义了在解释测试结果时可能发生的两种类型的错误:假阳性和假阴性。然后,基于投硬币的简单思维练习,围绕假阳性和相关概念(如统计显著性、p 值和置信区间)建立直观感受。在这篇文章中,我们将对假阴性和统计功率的相关概念做同样的处理。


image.png

图 1:和第 3 部分一样,我们将基于抛硬币的思维练习,以建立关于核心统计概念的直观感受


假阴性和功效(False negatives and power)


当数据显示测试组和对照组之间没有显著差异时,但事实上两者确实存在差异,就会出现假阴性。继续第三部分的例子,假阴性对应的是把猫的照片标记为“不是猫”。假阴性与统计功效[2]的概念密切相关,给出了在给定实验设计和特定规模的真实效应的情况下,真阳性的概率。事实上,功效就是 1 减去假阴性的概率。


功效涉及到在给定实际状态的特定假设下考虑可能的结果——类似于在第三部分中,我们如何通过首先做出零假设为真来定义显著性。为了建立关于功效的直觉,我们回到第 3 部分中相同的硬币例子,在这个例子中,目标是通过计算 100 次投掷中正面的比例的实验来判断硬币是否均匀。在零假设(即硬币是均匀的)下,结果的分布如图 2 中黑色所示。为了使图表更容易解释,我们对直方图的顶部进行了平滑处理。


在这个实验中,如果硬币不均匀会发生什么?为了让这个思维练习更具体,看看当我们有一枚硬币,正面出现的概率平均为 64%时,会发生什么(后面会解释为什么选择这个特殊数字)。因为实验中存在不确定性或噪声,不可能在 100 次投掷中正好出现 64 次正面。但和零假设一样,硬币是均匀的,可以计算出所有可能的结果(如果这个备择假设是真的的话)。这种分布如图 2 中的红色曲线所示。


image.png


图 2:用抛硬币 100 次并计算正面的比例的例子来说明功效。黑色虚线和红色虚线分别表示假设出现正面概率为 50%(零假设)和 64%(备择假设的特定值)的结果分布。在这里,对抗这个选择的功效是 80%(红色阴影)。


从视觉上看,功效是这个可选分布(红色)超出零假设下的临界值(蓝线和黑曲线,请参阅第3部分)。在这里,80%的替代分布(红色)落在更高的蓝线的右边,这条蓝线划定了上拒绝区域的临界值。假设硬币正面的概率是 64%,那么这个测试的功效是 80%。完整地说,还有一小部分可忽略的替代分布(红色)位于较低的拒绝区域(在短蓝线的左边)。


测试的功效对应于一个特定的、假设的效应大小。在我们的例子中,如果那枚非均匀硬币的正面概率是 64%,这个测试有 80%的能力来检测一枚硬币是不是非均匀的。解释如下:如果正面硬币的概率等于 64%,我们反复做 100 次实验,并且在 5%的显著性水平上做出决定,然后每 5 次实验中有 4 次我们都可以正确的拒绝硬币是均匀的这一零假设。20%的重复实验结果是假阴性,意思就是即使硬币是非均匀的,我们也不会拒绝零假设(硬币是均匀的)。


增加功效的方法(Ways to increase power)


在设计 A/B 测试时,我们首先确定显著性水平(惯例是 5%:如果测试组和对照组之间没有差异,将有 5%的概率发生假阳性),然后设计控制假阴性的实验。可以通过三个主要的杠杆来增加功效,降低假阴性的概率:


  1. 影响大小(Effect size)。简单地说,效应越大(即 A 组和 B 组之间度量值的差异越大),我们能够正确检测到差异的概率就越高。为了建立直观感受,假设进行实验来收集硬币 100 次投掷中正面的比例,来确定硬币是否均匀。考虑两种情况,在第一种情况中,正面的真实概率是 55%,而在第二种情况中,正面的真实概率是 75%。从直观上(以及数学上!),我们的实验更有可能在第二种情况下认定硬币是不均匀的。正面出现的真实概率离零值 50%远得多,所以实验产生的结果更有可能落在拒绝区域。在产品开发环境中,我们可以通过大胆的对比所测试的假设来增加度量变化的预期幅度。另一种增加效果的策略是在产品的新领域进行测试,在那里可能有更大的空间来提高会员满意度。也就是说,通过实验学习的乐趣之一就是惊喜元素:有时候,看似很小的变化可能会对顶级指标产生重大影响。


  1. 样本大小(Sample size)。实验单元(样本、数据)越多,功效越大,越容易正确识别较小的影响。为了建立直观感受,再考虑一下进行一个实验来确定一枚硬币是否为非均匀硬币,我们收集的数据是在固定次数的投掷中正面的比例,而正面的真实概率是 64%。考虑两种情况:第一种情况,抛硬币 20 次,第二种情况,抛硬币 100 次。从直观上(以及数学上!),实验更有可能在第二种情况下认定硬币是不均匀的。随着数据增加,实验结果将更接近真实的 64%正面的概率,而均匀硬币假设下的结果集中在 0.50 左右,导致拒绝区域覆盖了 50%的值。这些效应结合在一起,随着数据的增加,非均匀硬币的实验结果落在拒绝区域的概率就更大,从而产生真正的阳性。在产品开发的背景下,我们可以增加或者减少测试组(或者其他单位)的数量从而影响功效,在测试样本的数量以及可并行进行的非重复测试数量之间需要做出一定的权衡。


  1. 在潜在人群中度量的可变性(The variability of the metric in the underlying population)。我们所测试的人群的度量标准越一致,就越容易正确识别出真正的影响。这个直观感受有点复杂,没办法用简单的硬币例子了。假设在 Netflix,我们运行了一个旨在减少延迟(例如会员按下播放键和视频播放开始之间的延迟)的测试,考虑到人们用来访问 Netflix 的各种设备和互联网连接,我们的用户在这个指标上有很多自然的变化。因此,如果测试处理导致了延迟度量的小幅降低,则很难成功识别,有可能来自成员间可变性的“噪音”淹没了小信号。相比之下,如果我们对一组使用类似设备、网络连接相似的成员进行测试,那么小信号更容易识别,因为可能淹没信号的噪音更少。我们花了很多时间在 Netflix 上建立统计分析模型,从而可以利用这种直觉,并通过有效降低可变性来增强功能[3]


为合理和有意义的效果提供功效(Powering for reasonable and meaningful effects)


功效和假阴性率是一个假设效应大小的函数。就像 5%的误报率是一个被广泛接受的惯例一样,功效的经验法则是,为了一个合理有意义的效应大小,目标是 80%的功效(我们将在下面逐一讨论)。也就是说,我们假设一个效应大小,然后设计实验,主要是通过设置样本量,这样,如果测试真正会影响我们的假设,正确识别出影响的概率是 80%。在 20%的情况下,测试的结果会是假阴性:事实上有效果,但从测试中观察到的结果并不在拒绝区域,我们无法得出结论。这就是为什么上面的例子中正面的概率是 64%:投掷 100 次的实验有 80%的功效。


由于测试结果可能会让人很吃惊,因此很难说什么才是合理的效应大小。但是,领域知识和常识的结合通常可以提供可靠的估计。在测试一个持续时间很长的领域(比如优化推荐系统),帮助 Netflix 成员选择对他们有利的内容,我们对测试产生的效果应该有一个可靠的想法(无论是积极的还是消极的)。在了解了过去的效应大小以及分析策略后,可以设置样本大小,以确保测试对于合理的度量具有 80%的功效。


在实验的设计阶段以及决定往哪里投入精力时,第二个需要考虑的问题是,确定哪些因素对用来决定测试的主要指标构成有意义的影响。什么有意义将取决于实验的影响范围(成员满意度、回放延迟、后端系统的技术性能等),以及与新产品体验相关的潜在效果或成本。假设,对于效果小于主要度量指标 0.1%的变化,支持新产品特性的成本要大于收益。在这种情况下,推动测试去检测指标中 0.01%的变化就没有什么意义了,因为成功识别出这种规模的影响并不会导致决策发生有意义的变化。同样,如果在一个特定的创新领域的测试中所看到的效果大小对用户体验或业务始终是无关紧要的,这表明实验资源可以部署在其他更有效的地方。


总结


本系列的第 3 部分和第 4 部分着重于定义和构建用于分析测试结果的核心概念的直观感受:假阳性和假阴性、统计显著性、p 值和功效。


关于实验的一个令人不安的事实是,我们不能同时最小化假阳性和假阴性。事实上,必须在假阳性和假阴性之间做出权衡。如果我们使用更严格的假阳性率,比如 0.01%,会减少假阳性的可能性,但也降低了测试的功效,从而增加了这些测试的假阴性率。使用 5%的假阳性率和 80%的功效目标是在限制假阳性和实现真正发现之间取得平衡的公认惯例。然而,在假阳性(或假阴性)带来更大风险的情况下,研究人员可能会偏离这些经验法则,从而最小化某一种类型的不确定性。


我们的目标不是消除不确定性,而是理解和量化不确定性,以便做出合理的决策。在许多情况下,A/B 测试的结果需要细致的解释,事实上,测试结果本身只是业务决策的一个输入。在下一篇文章中,我们将讨论如何使用测试结果建立决策的信心。


References:

[1] Interpreting A/B test results: false negatives and power: https://netflixtechblog.com/interpreting-a-b-test-results-false-negatives-and-power-6943995cf3a8

[2] Power of a test: https://en.wikipedia.org/wiki/Power_of_a_test

[3] Efficient Computation of Linear Model Treatment Effects in an Experimentation Platform: https://arxiv.org/pdf/1910.01305.pdf


目录
相关文章
|
23天前
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的1024QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的1024QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同SNR条件下的性能测试。1024QAM调制将10比特映射到复平面上的1024个星座点之一,实现高效数据传输。硬件测试结果表明,在SNR=32dB和40dB时,系统表现出良好的性能。Verilog核心程序展示了各模块的连接与功能实现。
43 7
|
12天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的MSK调制解调系统系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文基于FPGA实现MSK调制解调系统,采用Verilog开发,包含同步模块、高斯信道模拟、误码率统计等功能。相比仿真版本,新增ILA数据采集与VIO在线SNR设置模块。通过硬件测试验证,展示不同SNR(如10dB和16dB)下的性能表现。研究聚焦软件无线电领域,优化算法复杂度以适应硬件限制,利用MSK恒定包络、相位连续等特性提升频谱效率。核心代码实现信号生成、调制解调、滤波及误码统计,提供完整的硬件设计与分析方案。
50 19
|
18天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的4ASK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的4ASK调制解调系统的硬件测试版本,该系统包括testbench、高斯信道模块和误码率统计模块,并新增了ILA在线数据采集和VIO在线SNR设置功能。通过VIO设置不同SNR(如15dB和25dB),实现了对系统性能的实时监测与调整。4ASK是一种通过改变载波幅度表示数据的数字调制方式,适用于多种通信场景。FPGA平台的高效性和灵活性使其成为构建高性能通信系统的理想选择。
65 17
|
17天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的16QAM调制+软解调系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文基于之前开发的16QAM调制与软解调系统,增加了硬件测试功能。该系统包含FPGA实现的16QAM调制、软解调、高斯信道、误码率统计模块,并新增了ILA在线数据采集和VIO在线SNR设置模块。通过硬件测试,验证了不同SNR条件下的系统性能。16QAM软解调通过比较接收信号采样值与16个调制点的距离,选择最近的调制点来恢复原始数据。核心Verilog代码实现了整个系统的功能,包括SNR设置、信号处理及误码率统计。硬件测试结果表明系统在不同SNR下表现良好,详细操作步骤可参考配套视频。
47 13
|
21天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的4FSK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文基于之前的文章《基于FPGA的4FSK调制解调系统》,增加了ILA在线数据采集模块和VIO在线SNR设置模块,实现了硬件测试版本。通过VIO设置不同SNR(如10dB和20dB),并展示了ILA采集的数据结果。四频移键控(4FSK)是一种数字调制方法,利用四个不同频率传输二进制数据,具有较高的频带利用率和抗干扰性能。输入的二进制数据分为两组,每组两个比特,对应四个频率f1、f2、f3、f4,分别代表二进制组合00、01、10、11。调制过程中选择相应频率输出,并进行幅度调制以增强抗干扰能力。接收端通过带通滤波器提取信号并还原为原始二进制数据。
33 7
|
24天前
|
数据采集 算法 数据处理
【硬件测试】基于FPGA的256QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的256QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同信噪比(如30dB和40dB)的仿真测试,并提供配套操作视频。256QAM调制方案每个符号携带8比特信息,通过复数值星座图映射实现高效传输。Verilog代码展示了核心模块设计,包括SNR设置、数据处理和ILA测试分析,确保系统在实际硬件环境中的稳定性和性能。
22 2
|
1月前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的16QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的16QAM基带通信系统硬件测试版本。该系统在仿真基础上增加了ILA在线数据采集和VIO在线SNR设置模块,支持不同信噪比(如15dB、25dB)的测试。16QAM是一种正交幅度调制方式,通过两路4ASK信号叠加实现,每个符号包含4比特信息。系统采用正交调幅法生成16QAM信号,并通过DAC转换为模拟信号。解调时使用正交相干解调,经低通滤波器恢复电平信号。开发板内完成发射与接收,无需定时同步模块。代码可移植至其他开发板,具体步骤见配套文档。
30 2
|
1月前
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的2ASK调制解调系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍基于FPGA的2ASK调制解调系统,涵盖仿真效果、理论知识、Verilog核心程序及开发板使用说明。系统包含testbench、高斯信道模块和误码率统计模块,支持不同SNR设置。硬件测试版本增加了ILA在线数据采集和VIO在线SNR设置功能。2ASK调制通过改变载波振幅传输二进制信号,FPGA实现包括系统设计、Verilog编码、仿真测试和硬件部署。详细操作步骤见配套视频,代码适用于多种开发板,提供移植方法。
40 1
|
26天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的64QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的64QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集模块和vio在线SNR设置模块,支持不同SNR条件下的仿真与测试。通过设置SNR为25dB和30dB进行测试,验证了系统的可行性和性能。此外,本文详细阐述了64QAM调制解调的工作原理,包括信号生成、调制、解调及误码率测试等环节,并提供了Verilog核心程序代码。
21 0
|
2月前
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的16psk调制解调系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的16PSK调制解调系统的硬件测试版本。系统在原有仿真基础上增加了ILA在线数据采集和VIO在线SNR设置模块,支持不同信噪比下的性能测试。16PSK通过改变载波相位传输4比特信息,广泛应用于高速数据传输。硬件测试操作详见配套视频。开发板使用及移植方法也一并提供。
54 6

热门文章

最新文章