带你读《计算机时代的统计推断:算法、演化和数据科学》之二:频率学派推断

简介: 本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。

点击查看第一章
点击查看第三章

第2章

频率学派推断
计算机时代之前是计算器时代,而在“大数据”时代之前,还有一些数据量通常为数百个或更少的小数据集,这些小数据集由科学家们在充满限制的实验约束下辛苦收集而来。珍贵的数据需要最高效的统计分析。一个可以在机械式桌面计算器上运行的非常有效的理论,由Pearson、Fisher、Neyman、Hotelling等人于1900年开始发展,并逐渐主导了20世纪的统计实践。这个现在被称为经典的理论几乎完全依赖于频率学派推断思想。本章简要介绍了频率学派推断,特别介绍如何将其运用在经典应用统计中。
我们从Myers博士的肾病实验室的另一个例子开始:实验室对211名肾脏患者测定了肾小球滤过率,结果见图2.1;gfr是肾功能的重要指标,低值意味着肾出了问题。(这是图1.1中tot的关键组件。)均值(见公式1.1)和标准误差(见公式1.2)分别为image.pngimage.png,通常表示成

54.25±0.95(2.1)

image.png

其中±0.95表示对估计image.png的准确性的频率学派推断,并且表明我们不应该太看重“0.25”,即使“4”这个数字也是值得怀疑的。推断来自哪里,究竟意味着什么,还有待说明。
统计推断通常始于一种假设,即概率模型已经生成观测数据x,而在我们的情况下,x是数据量为n=211的gfr测量向量x=(x1,x2,…,xn)。令X=(X1,X2,…,Xn)表示从概率分布F中抽取的相互独立的随机向量,记作

F→X(2.2)

F在这里为可能的gfr分数的潜在分布。一个(2.2)的X=x的实现值被观测到,而统计学家希望推断未知分布F的特征。
假设我们想得到的分布特征是从分布F中抽取一个随机变量X的期望,记作

image.png

(也等于关于随机向量(2.2)的平均值image.png的期望)。对θ明显的估计是样本平均值image.png。如果n很大,例如10^10,那么我们期待image.png和θ几乎相等,但除此之外,还存在一定误差。误差为多大是推断统计所研究的问题。
估计image.png是根据某种已知的算法从x计算而得,例如

image.png

在我们的例子中t(x)是求平均函数image.pngimage.png

image.png

的实现值,t(·)的输出应用于来自F(2.2)的理论样本X。我们选择了t(X),希望让image.png成为θ(想要的分布F的特征)的一个好的估计量。
我们现在可以给出频率学派推断的第一个定义:一个观测的估计image.png的准确性是作为θ的一个估计量的image.png的概率准确性。这可能只是定义的同义复述,但它包含了一个强大的思想:image.png只是一个单一的数字,但是image.png包括一系列的取值,能够刻画估计的准确性。
偏差和方差都是频率学派推断中熟悉的例子。定义μ为在模型(2.2)下image.png的期望,

image.png

那么参数θ的估计image.png的偏差和方差分别为

image.png

再者,模型(2.2)中image.png的概率性质对单个数字image.png的影响导致上式中的偏差、方差与之前重申的不同。如果有关这方面的担忧都是杞人忧天的话,那么在第3章中贝叶斯学派对此的批评将会让你感到惊讶。
频率学派通常与“无限的未来试验序列”有关。我们设想假想的数据集X(1),X(2),X(3),…是在给定(2.5)中相应的值image.png…下运用与x一样的机制生成的。频率学派准则解释了image.png对于image.png值的集合的精确性质。如果各个image.png有经验方差,例如,0.04,那么我们可以说image.png的标准误差是0.2=0.04。这相当于对以前的定义给出一个更生动的重述。

2.1 实践中的频率学派

我们对于频率学派的实践定义是,导出一个感兴趣的过程的概率性质,然后逐一地应用于观测数据的过程输出。这个定义有一个明显的缺陷:它需要计算从真实分布F中获得的估计量image.png的概率性质,即使F未知。实用的频率学派使用一些或多或少的巧妙手法来规避这个缺陷。
1.插入原则。一个有关image.png的标准误差和varF(X),即来自真实分布F的随机变量X的方差的简单关系式如下:

image.png

  
但是观测到x=(x1,x2,…,xn)后,我们能够用下式给出varF(X)的无偏估计。

image.png

把式(2.9)代入式(2.8)中,得到平均值x的标准误差的常用估计image.png。换句话说,频率学派对x的准确性估计是来自于观测数据的估计。
2.泰勒级数近似。统计量image.png如果比image.png更复杂的话,通常可以与通过局部线性近似(有时被称作“Delta方法”)得到的插入公式建立联系。例如,image.png。考虑到image.png是一个常量,得到


image.png

其中image.png的定义见(1.2)。大样本的计算,正如样本量n趋于无穷时,验证了Delta方法的有效性。幸运的是,Delta方法在小样本计算中通常表现得很好。
3.参数族和最大似然理论。最大似然估计(MLE)标准误差的理论表达式将在第4章和第5章分布的参数族相关内容中讨论。该理论将Fisher理论、泰勒级数近似和插入原则结合在一个易于应用的软件包中。
4.模拟和自助法。现代计算开辟了数值实现“无限的未来试验序列”定义的可能性,除了无限的部分。我们找到F的估计image.png,有可能是MLE,然后值image.png是从image.png中模拟得到的,其中k=1,2,…,B,不妨令B=1000。image.png的经验标准差是image.png的标准误差的频率学派估计,其他准确性的度量也类似。
以上是对第10章自助法的一个很好的描述。(注意到在这里关于真实分布F的插入统计量F是在全过程的开始而不是在全过程的结束。)上面的经典方法1~3仅限于估计各种样本均值的平滑函数image.png。模拟计算消除了这个限制。表2.1展示了gfr数据的三个“位置”估计值,均值、25%的缩尾均值、中位数,以及它们的标准误差,后两项是由自助法计算得出的。计算机时代统计推断的一个令人满意的特征是统计学家的工作工具箱中有用和可用的统计量t(x)的巨大扩展,图1.2和图1.3中的lowess算法对此提供了一个很好的例子。

image.png

5.枢轴统计量。枢轴统计量image.png是一个其分布不取决于潜在概率分布F的统计量。在这里,理论分布image.png就可以直接运用在image.png上,上述第一种到第四种方法就不需要了。有关枢轴统计量的经典例子有学生两样本t-检验。
在两样本问题中,统计学家观测到两组数据:

image.png

而我们想检验一下“这两组数据来自同一个分布”的原假设(与原假设相反的是,第二组数据更倾向于来自均值比第一组数据的分布更大的分布)。假设x1的分布F1是正态分布,或者高斯分布,

image.png

上述标记表明n1个点来自同一个期望为μ1、方差为σ2的正态分布且相互独立。同样,

image.png

 

我们希望检验原假设H0:

μ1=μ2(2.14)

检验统计量显然为两组样本的均值差image.png,该检验统计量在原假设下的分布为

image.png

我们可以将以下σ2的无偏估计代入其中,

image.png

但是Student提供了一个更优雅的解决方法:我们运用两样本t-统计量而不是θ来检验原假设是否成立:

image.png

在原假设成立的情形下,t是枢轴量,服从学生t分布(自由度为n1+n2-2),与“多余参数”σ无关。
当n1+n2-2=70时,正如(1.5)和(1.6)的白血病例子,由学生t分布得到

image.png

如果t大于1.99具有很大的概率,那么在能容忍犯第一类错误的概率为0.05的前提下,假设检验将拒绝原假设H0。与此类似,

image.png

是均值差μ2-μ1的95%置信区间,也就是说95%的概率模型(2.12)和(2.13)的重复实验获得的区间会包含其真实值。
所谓频率主义的严格定义是指在实验重复下的确切的概率准确性。遗憾的是,枢轴量法在大多数统计情形下都不可用。我们对频率主义的宽松定义,以及对方法技巧的补充,例如上述五种方法等,对频率学派统计实践应用的场景给出了更加实际的描述。

2.2 频率学意义下的最优化

频率学派方法的普及反映了他们相对适度的数学建模假设:只有一个概率模型F(更准确地说是一个概率族,详见第3章)和一个选择算法t(x)。这种灵活性也是一个缺陷,因为频率正确性原则并不能帮助选择算法。我们应该用样本均值来估计gfr分布的位置吗?如表2.1所示,也许25%的缩尾均值会更好。
1920年至1935年,频率学派最优化的发展得到了两个关键结果,即寻找给定模型F下t(x)的最佳选择。其中第一个是Fisher最大似然估计理论和Fisher信息界限:在第4章讨论的参数概率模型中,MLE是最小(渐近)标准误差的最优估计。
本着同样的精神,Neyman-Pearson引理提供了一个最优假设检验算法。这也许是最优雅的频率学派构造。在最简单的表达式中,NP引理假设我们正试图在观测数据x给出的情境下决定样本可能属于哪个概率密度函数,是原假设下的概率密度f0(x),抑或是备择假设下的概率密度f1(x)。检验规则t(x)表示我们在观察数据x之后做出0或1的选择。任何这样的规则都有两个相关的频率学派框架下的错误概率:生成x的实际上是f0,但我们选择了f1,反之亦然。

image.png

令L(x)是似然比,

image.png

 

image.png

并且定义检验规则tc(x)为

image.png

对于每个截止点的选择有一个这样的规则:Neyman-Pearson引理说只有满足规则(2.22)才是最优的,对于任何其他规则t(x)将会有一个规则tc(x)具有更小的错误,

image.png

图2.2 中在x=(x1,x2,…,x10)下作为截止点c的函数的图像(αc,βc)是从正态分布f0~N(0,1)与f1~N(0.5,1)中独立抽样得到的。NP引理说,任何不是形式(2.22)的规则都必须把它的(α,β)点放在曲线之上。
频率学派最优化理论,无论是对于估计还是检验,都是20世纪统计实践的基础。当今时代的大数据集和更复杂的推断性问题,使这一理论的能力受到了限制。正如我们所看到的,计算机时代的统计推断往往表现出一个令人不安的特征。也许一些当代Fisher和Neyman的继承者会为我们提供一个更加宽广的最优理论,这个理论等于当前实践的挑战,但是现在这只是一个希望。
频率主义不能说是统计推断的一种无懈可击的哲学。在它的边界内会出现矛盾,下一章将会对此进行介绍。这就是说,频率学派的方法对研究该领域的科学家有着天然的吸引力。历史上一系列卓越的成功应用案例,例如我们之前列举的五种方法,显示了其具有促进巧妙方法论诞生的能力。接下来的故事不是放弃频率学派的思考方式,而是扩大与其他方法的联系。

2.3 注释与细节

“频率主义”这个名字似乎被Neyman认为是Richard von Mises的频率学概率论的一个统计类比,这个关系在他1977年的论文“Frequentist probability and frequentist statistics”中被明确地表述出来。“行为主义”可能是一个更具描述性的名字 这个名字已经在心理学文献中讲过了。,因为这个理论是围绕着统计学的长期行为展开的,但无论如何,“频率主义”已经停滞不前,取代了较老的(有时是贬义的)术语“客观主义”。Neyman对统计推断中的“归纳行为”曾尝试给出一个完整的频率主义理论,然而时至今日,对该理论的引用寥寥无几。但是,我们仍认为该理论对Wald决策理论的发展起到了重要影响。
R.A.Fisher关于最大似然估计的研究在第4章中有介绍。Fisher可以说是频率学派最优化理论的创始人,他本身并不是一个纯粹的频率论者,本书第4章以及Efron于1998年所著文章“k.A.Fisher in the 21st Century”均对此有所讨论。(现在我们已经进入21世纪,作者Efron作为预言者的天赋即得以验证。)
注释
1.Delta方法:Delta方法运用一阶泰勒级数去近似统计量image.png的函数s(image.png)的方差。假设image.png有均值/方差(θ,σ2),并且考虑到近似约等式s(image.png)≈s(θ)+s′(θ)(image.png-θ),则有var{s(image.png)}≈|s′(θ)|2σ^2。一般情况下用image.png代替θ,再将σ2用另一个估计量代替。

相关文章
|
14天前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
46 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
13天前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
43 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
9天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
22 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
25天前
|
前端开发 搜索推荐 算法
中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发
中草药管理与推荐系统。本系统使用Python作为主要开发语言,前端使用HTML,CSS,BootStrap等技术和框架搭建前端界面,后端使用Django框架处理应用请求,使用Ajax等技术实现前后端的数据通信。实现了一个综合性的中草药管理与推荐平台。具体功能如下: - 系统分为普通用户和管理员两个角色 - 普通用户可以登录,注册、查看物品信息、收藏物品、发布评论、编辑个人信息、柱状图饼状图可视化物品信息、并依据用户注册时选择的标签进行推荐 和 根据用户对物品的评分 使用协同过滤推荐算法进行推荐 - 管理员可以在后台对用户和物品信息进行管理编辑
57 12
中草药管理与推荐系统Python+Django网页界面+推荐算法+计算机课设系统+网站开发
|
9天前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
28 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
14天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
20 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
2月前
|
机器学习/深度学习 人工智能 算法
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
眼疾识别系统,使用Python作为主要编程语言进行开发,基于深度学习等技术使用TensorFlow搭建ResNet50卷积神经网络算法,通过对眼疾图片4种数据集进行训练('白内障', '糖尿病性视网膜病变', '青光眼', '正常'),最终得到一个识别精确度较高的模型。然后使用Django框架开发Web网页端可视化操作界面,实现用户上传一张眼疾图片识别其名称。
71 9
【眼疾病识别】图像识别+深度学习技术+人工智能+卷积神经网络算法+计算机课设+Python+TensorFlow
|
3月前
|
人工智能 算法
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
**统计学江湖概要** - **平均数(均值)**:数字的总和除以数量,代表集中趋势,如分赃时平均分配。 - **众数**:出现次数最多的数字,反映了最常见的值,如同一招式被频繁使用。 - **中位数**:排序后位于中间的值,反映数据的中心位置,如同武者武功的中等水平。 - **极差**:最大值减最小值,表示数据波动范围,类似武功最高与最低的差距。 - **方差**:衡量数据波动性,计算每个数值与均值差的平方和的平均数。 - **标准差**:方差的平方根,同单位的波动度量。 - **频数**:某个值出现的次数,如统计武器使用情况。 - **频率**:频数与总次数的比例,显示出现的相对频率。
59 2
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索计算机人工智能算法
在信息科技飞速发展的今天,人工智能(AI)炙手可热。计算机AI算法作为核心,使系统能模拟乃至超越人智。本文探索AI算法原理,涵盖机器学习(监督与无监督学习)、深度学习及自然语言处理等关键技术,展示其如何通过数据分析、模式识别等实现预测、分类及理解人类语言等复杂任务,引领科技创新潮流。
54 0
|
2月前
|
存储 算法 Java
LeetCode初级算法题:反转链表+统计N以内的素数+删除排序数组中的重复项Java详解
LeetCode初级算法题:反转链表+统计N以内的素数+删除排序数组中的重复项Java详解
20 0
下一篇
无影云桌面