带你读《计算机时代的统计推断:算法、演化和数据科学》之二:频率学派推断

简介: 本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。

点击查看第一章
点击查看第三章

第2章

频率学派推断
计算机时代之前是计算器时代,而在“大数据”时代之前,还有一些数据量通常为数百个或更少的小数据集,这些小数据集由科学家们在充满限制的实验约束下辛苦收集而来。珍贵的数据需要最高效的统计分析。一个可以在机械式桌面计算器上运行的非常有效的理论,由Pearson、Fisher、Neyman、Hotelling等人于1900年开始发展,并逐渐主导了20世纪的统计实践。这个现在被称为经典的理论几乎完全依赖于频率学派推断思想。本章简要介绍了频率学派推断,特别介绍如何将其运用在经典应用统计中。
我们从Myers博士的肾病实验室的另一个例子开始:实验室对211名肾脏患者测定了肾小球滤过率,结果见图2.1;gfr是肾功能的重要指标,低值意味着肾出了问题。(这是图1.1中tot的关键组件。)均值(见公式1.1)和标准误差(见公式1.2)分别为image.pngimage.png,通常表示成

54.25±0.95(2.1)

image.png

其中±0.95表示对估计image.png的准确性的频率学派推断,并且表明我们不应该太看重“0.25”,即使“4”这个数字也是值得怀疑的。推断来自哪里,究竟意味着什么,还有待说明。
统计推断通常始于一种假设,即概率模型已经生成观测数据x,而在我们的情况下,x是数据量为n=211的gfr测量向量x=(x1,x2,…,xn)。令X=(X1,X2,…,Xn)表示从概率分布F中抽取的相互独立的随机向量,记作

F→X(2.2)

F在这里为可能的gfr分数的潜在分布。一个(2.2)的X=x的实现值被观测到,而统计学家希望推断未知分布F的特征。
假设我们想得到的分布特征是从分布F中抽取一个随机变量X的期望,记作

image.png

(也等于关于随机向量(2.2)的平均值image.png的期望)。对θ明显的估计是样本平均值image.png。如果n很大,例如10^10,那么我们期待image.png和θ几乎相等,但除此之外,还存在一定误差。误差为多大是推断统计所研究的问题。
估计image.png是根据某种已知的算法从x计算而得,例如

image.png

在我们的例子中t(x)是求平均函数image.pngimage.png

image.png

的实现值,t(·)的输出应用于来自F(2.2)的理论样本X。我们选择了t(X),希望让image.png成为θ(想要的分布F的特征)的一个好的估计量。
我们现在可以给出频率学派推断的第一个定义:一个观测的估计image.png的准确性是作为θ的一个估计量的image.png的概率准确性。这可能只是定义的同义复述,但它包含了一个强大的思想:image.png只是一个单一的数字,但是image.png包括一系列的取值,能够刻画估计的准确性。
偏差和方差都是频率学派推断中熟悉的例子。定义μ为在模型(2.2)下image.png的期望,

image.png

那么参数θ的估计image.png的偏差和方差分别为

image.png

再者,模型(2.2)中image.png的概率性质对单个数字image.png的影响导致上式中的偏差、方差与之前重申的不同。如果有关这方面的担忧都是杞人忧天的话,那么在第3章中贝叶斯学派对此的批评将会让你感到惊讶。
频率学派通常与“无限的未来试验序列”有关。我们设想假想的数据集X(1),X(2),X(3),…是在给定(2.5)中相应的值image.png…下运用与x一样的机制生成的。频率学派准则解释了image.png对于image.png值的集合的精确性质。如果各个image.png有经验方差,例如,0.04,那么我们可以说image.png的标准误差是0.2=0.04。这相当于对以前的定义给出一个更生动的重述。

2.1 实践中的频率学派

我们对于频率学派的实践定义是,导出一个感兴趣的过程的概率性质,然后逐一地应用于观测数据的过程输出。这个定义有一个明显的缺陷:它需要计算从真实分布F中获得的估计量image.png的概率性质,即使F未知。实用的频率学派使用一些或多或少的巧妙手法来规避这个缺陷。
1.插入原则。一个有关image.png的标准误差和varF(X),即来自真实分布F的随机变量X的方差的简单关系式如下:

image.png

  
但是观测到x=(x1,x2,…,xn)后,我们能够用下式给出varF(X)的无偏估计。

image.png

把式(2.9)代入式(2.8)中,得到平均值x的标准误差的常用估计image.png。换句话说,频率学派对x的准确性估计是来自于观测数据的估计。
2.泰勒级数近似。统计量image.png如果比image.png更复杂的话,通常可以与通过局部线性近似(有时被称作“Delta方法”)得到的插入公式建立联系。例如,image.png。考虑到image.png是一个常量,得到


image.png

其中image.png的定义见(1.2)。大样本的计算,正如样本量n趋于无穷时,验证了Delta方法的有效性。幸运的是,Delta方法在小样本计算中通常表现得很好。
3.参数族和最大似然理论。最大似然估计(MLE)标准误差的理论表达式将在第4章和第5章分布的参数族相关内容中讨论。该理论将Fisher理论、泰勒级数近似和插入原则结合在一个易于应用的软件包中。
4.模拟和自助法。现代计算开辟了数值实现“无限的未来试验序列”定义的可能性,除了无限的部分。我们找到F的估计image.png,有可能是MLE,然后值image.png是从image.png中模拟得到的,其中k=1,2,…,B,不妨令B=1000。image.png的经验标准差是image.png的标准误差的频率学派估计,其他准确性的度量也类似。
以上是对第10章自助法的一个很好的描述。(注意到在这里关于真实分布F的插入统计量F是在全过程的开始而不是在全过程的结束。)上面的经典方法1~3仅限于估计各种样本均值的平滑函数image.png。模拟计算消除了这个限制。表2.1展示了gfr数据的三个“位置”估计值,均值、25%的缩尾均值、中位数,以及它们的标准误差,后两项是由自助法计算得出的。计算机时代统计推断的一个令人满意的特征是统计学家的工作工具箱中有用和可用的统计量t(x)的巨大扩展,图1.2和图1.3中的lowess算法对此提供了一个很好的例子。

image.png

5.枢轴统计量。枢轴统计量image.png是一个其分布不取决于潜在概率分布F的统计量。在这里,理论分布image.png就可以直接运用在image.png上,上述第一种到第四种方法就不需要了。有关枢轴统计量的经典例子有学生两样本t-检验。
在两样本问题中,统计学家观测到两组数据:

image.png

而我们想检验一下“这两组数据来自同一个分布”的原假设(与原假设相反的是,第二组数据更倾向于来自均值比第一组数据的分布更大的分布)。假设x1的分布F1是正态分布,或者高斯分布,

image.png

上述标记表明n1个点来自同一个期望为μ1、方差为σ2的正态分布且相互独立。同样,

image.png

 

我们希望检验原假设H0:

μ1=μ2(2.14)

检验统计量显然为两组样本的均值差image.png,该检验统计量在原假设下的分布为

image.png

我们可以将以下σ2的无偏估计代入其中,

image.png

但是Student提供了一个更优雅的解决方法:我们运用两样本t-统计量而不是θ来检验原假设是否成立:

image.png

在原假设成立的情形下,t是枢轴量,服从学生t分布(自由度为n1+n2-2),与“多余参数”σ无关。
当n1+n2-2=70时,正如(1.5)和(1.6)的白血病例子,由学生t分布得到

image.png

如果t大于1.99具有很大的概率,那么在能容忍犯第一类错误的概率为0.05的前提下,假设检验将拒绝原假设H0。与此类似,

image.png

是均值差μ2-μ1的95%置信区间,也就是说95%的概率模型(2.12)和(2.13)的重复实验获得的区间会包含其真实值。
所谓频率主义的严格定义是指在实验重复下的确切的概率准确性。遗憾的是,枢轴量法在大多数统计情形下都不可用。我们对频率主义的宽松定义,以及对方法技巧的补充,例如上述五种方法等,对频率学派统计实践应用的场景给出了更加实际的描述。

2.2 频率学意义下的最优化

频率学派方法的普及反映了他们相对适度的数学建模假设:只有一个概率模型F(更准确地说是一个概率族,详见第3章)和一个选择算法t(x)。这种灵活性也是一个缺陷,因为频率正确性原则并不能帮助选择算法。我们应该用样本均值来估计gfr分布的位置吗?如表2.1所示,也许25%的缩尾均值会更好。
1920年至1935年,频率学派最优化的发展得到了两个关键结果,即寻找给定模型F下t(x)的最佳选择。其中第一个是Fisher最大似然估计理论和Fisher信息界限:在第4章讨论的参数概率模型中,MLE是最小(渐近)标准误差的最优估计。
本着同样的精神,Neyman-Pearson引理提供了一个最优假设检验算法。这也许是最优雅的频率学派构造。在最简单的表达式中,NP引理假设我们正试图在观测数据x给出的情境下决定样本可能属于哪个概率密度函数,是原假设下的概率密度f0(x),抑或是备择假设下的概率密度f1(x)。检验规则t(x)表示我们在观察数据x之后做出0或1的选择。任何这样的规则都有两个相关的频率学派框架下的错误概率:生成x的实际上是f0,但我们选择了f1,反之亦然。

image.png

令L(x)是似然比,

image.png

 

image.png

并且定义检验规则tc(x)为

image.png

对于每个截止点的选择有一个这样的规则:Neyman-Pearson引理说只有满足规则(2.22)才是最优的,对于任何其他规则t(x)将会有一个规则tc(x)具有更小的错误,

image.png

图2.2 中在x=(x1,x2,…,x10)下作为截止点c的函数的图像(αc,βc)是从正态分布f0~N(0,1)与f1~N(0.5,1)中独立抽样得到的。NP引理说,任何不是形式(2.22)的规则都必须把它的(α,β)点放在曲线之上。
频率学派最优化理论,无论是对于估计还是检验,都是20世纪统计实践的基础。当今时代的大数据集和更复杂的推断性问题,使这一理论的能力受到了限制。正如我们所看到的,计算机时代的统计推断往往表现出一个令人不安的特征。也许一些当代Fisher和Neyman的继承者会为我们提供一个更加宽广的最优理论,这个理论等于当前实践的挑战,但是现在这只是一个希望。
频率主义不能说是统计推断的一种无懈可击的哲学。在它的边界内会出现矛盾,下一章将会对此进行介绍。这就是说,频率学派的方法对研究该领域的科学家有着天然的吸引力。历史上一系列卓越的成功应用案例,例如我们之前列举的五种方法,显示了其具有促进巧妙方法论诞生的能力。接下来的故事不是放弃频率学派的思考方式,而是扩大与其他方法的联系。

2.3 注释与细节

“频率主义”这个名字似乎被Neyman认为是Richard von Mises的频率学概率论的一个统计类比,这个关系在他1977年的论文“Frequentist probability and frequentist statistics”中被明确地表述出来。“行为主义”可能是一个更具描述性的名字 这个名字已经在心理学文献中讲过了。,因为这个理论是围绕着统计学的长期行为展开的,但无论如何,“频率主义”已经停滞不前,取代了较老的(有时是贬义的)术语“客观主义”。Neyman对统计推断中的“归纳行为”曾尝试给出一个完整的频率主义理论,然而时至今日,对该理论的引用寥寥无几。但是,我们仍认为该理论对Wald决策理论的发展起到了重要影响。
R.A.Fisher关于最大似然估计的研究在第4章中有介绍。Fisher可以说是频率学派最优化理论的创始人,他本身并不是一个纯粹的频率论者,本书第4章以及Efron于1998年所著文章“k.A.Fisher in the 21st Century”均对此有所讨论。(现在我们已经进入21世纪,作者Efron作为预言者的天赋即得以验证。)
注释
1.Delta方法:Delta方法运用一阶泰勒级数去近似统计量image.png的函数s(image.png)的方差。假设image.png有均值/方差(θ,σ2),并且考虑到近似约等式s(image.png)≈s(θ)+s′(θ)(image.png-θ),则有var{s(image.png)}≈|s′(θ)|2σ^2。一般情况下用image.png代替θ,再将σ2用另一个估计量代替。

相关文章
C4.
|
1月前
|
存储 算法 C语言
关于c语言用计算机语言表示算法
关于c语言用计算机语言表示算法
C4.
17 1
|
2月前
|
算法 测试技术 C++
【动态规划】【图论】【C++算法】1575统计所有可行路径
【动态规划】【图论】【C++算法】1575统计所有可行路径
|
2月前
|
人工智能 算法 测试技术
【动态规划】【二分查找】C++算法 466 统计重复个数
【动态规划】【二分查找】C++算法 466 统计重复个数
|
4月前
|
算法 测试技术 C#
C++前缀和算法的应用:统计中位数为 K 的子数组
C++前缀和算法的应用:统计中位数为 K 的子数组
|
2月前
|
算法
基于最小二乘正弦拟合算法的信号校正matlab仿真,校正幅度,频率以及时钟误差,输出SNDR,SFDR,ENOB指标
基于最小二乘正弦拟合算法的信号校正matlab仿真,校正幅度,频率以及时钟误差,输出SNDR,SFDR,ENOB指标
|
4月前
|
算法 测试技术 C#
C++前缀和算法的应用:统计得分小于K的子数组数目
C++前缀和算法的应用:统计得分小于K的子数组数目
|
27天前
|
自然语言处理 算法 搜索推荐
用计算机语言表示算法
在计算机科学中,算法是解决问题的核心步骤和方法的描述。然而,算法本身并不直接执行;它们需要被转换成计算机可以理解和执行的指令,这通常是通过编写代码来实现的。不同的计算机语言提供了不同的方式来表示和实现算法。本文将讨论如何使用计算机语言来表示算法,并通过一个具体示例来展示这个过程。
14 0
|
2月前
|
人工智能 算法 测试技术
【字符串】【C++算法】828.统计子串中的唯一字符
【字符串】【C++算法】828.统计子串中的唯一字符
|
3月前
|
存储 算法 JavaScript
TypeScript算法专题 - blog9 - 单链表统计 : 返回指定值在单链表结点中的出现次数
TypeScript算法专题 - blog9 - 单链表统计 : 返回指定值在单链表结点中的出现次数
20 0
|
3月前
|
人工智能 算法 测试技术
【动态规划】【二分查找】C++算法 466 统计重复个数
【动态规划】【二分查找】C++算法 466 统计重复个数