19 误差分布曲线的建立 - 高斯导出误差正态分布

简介: 19 误差分布曲线的建立 - 高斯导出误差正态分布

事实上,棣莫弗早在1730年~1733年间便已从二项分布逼近的途径得到了正态密度函数的形式,到了1780年后,拉普拉斯也推出了中心极限定理的一般形式,但无论是棣莫弗,还是拉普拉斯,此时他们这些研究成果都还只是一个数学表达式而非概率分布,也就是压根就还没往误差概率分布的角度上去思索,而只有到了1809年,高斯提出“正太误差”的理论之后,它正太理论才得以“概率分布“的身份进入科学殿堂,从而引起人们的重视。

追本溯源,正态分布理论这条大河的源头归根结底是测量误差理论。那高斯到底在正态分布的确立做了哪些贡献呢?请看下文。

1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题也引起了他的兴趣。高斯一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的呢?请看下文。

跟上面一样,还是设真值为,而为n次独立测量值,每次测量的误差为,假设误差ei的密度函数为f(e),则测量值的联合概率为n个误差的联合概率,记为

到此为止,高斯的作法实际上与拉普拉斯相同,但在继续往下进行时,高斯提出了两个创新的想法。

第一个创新的想法便是:高斯并没有像前面的拉普拉斯那样采用贝叶斯的推理方式,而是直接取L(θ)达到最小值的作为的估计值,这也恰恰是他解决此问题采用的创新方法,即

现在我们把L(θ)称为样本的似然函数,而得到的估计值θˆ称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。

高斯的第二点创新的想法是:他把整个问题的思考模式倒过来,既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均),所以高斯猜测:

然后高斯再去寻找相应的误差密度函数f以迎合这一点。即寻找这样的概率分布函数f,使得极大似然估计正好是算术平均。通过应用数学技巧求解这个函数f,高斯证明了所有的概率密度函数中,唯一满足这个性质的就是(记为(11)式):

而这恰巧是我们所熟知的正态分布的密度函数,就这样,误差的正态分布就被高斯给推导出来了!

但,高斯是如何证明的呢?也就是说,高斯是如何一下子就把上面(11)式所述的概率密度函数给找出来的呢?如下图所示(摘自数理统计学简史第127页注2,图中开头所说的高斯的第2原则就是上面所讲的高斯的第二点创新的想法,而下图最后所说的(11)式就是上面推导出来的概率密度函数):

进一步,高斯基于这个误差分布函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差ei,有则结合高斯的第一个创新方法:极大似然估计及上述的概率密度,(e1,⋯,en)的联合概率分布为

要使得这个概率最大,必须使得取最小值,这正好就是最小二乘法的要求。

高斯的这项工作对后世的影响极大,它使正态分布同时有了”高斯分布“的名称,不止如此,后世甚至也把最小二乘法的发明权也归功于他,由于他的这一系列突出贡献,人们 采取了各种形式纪念他,如现今德国10马克的钞票上便印有这高斯头像及正态分布的密度曲线,借此表明在高斯的一切科学贡献中,尤以此”正太分布“的确立对人类文明的进程影响最大。

至此,咱们来总结下:

如你所见,相比于勒让德1805给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。

但事情就完了么?没有。高斯设定了准则“最大似然估计应该导出优良的算术平均”,并导出了误差服从正态分布,推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘和算术平均,来说明最小二乘法和算术平均的优良性,故其中无论正反论点都必须借助另一方论点作为其出发点,可是算术平均到并没有自行成立的理由。

也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

也就是上面说到的高斯的第二点创新的想法“他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那么就直接先承认算术平均就是极大似然估计(换言之,极大似然估计导出的就应该是算术平均)”存在着隐患,而这一隐患的消除又还得靠咱们的老朋友拉普拉斯解决了。

至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位。在整个正态分布被发现与应用的历史中,棣莫弗、拉普拉斯、高斯各有贡献,拉普拉斯从中心极限定理的角度解释它,高斯把它应用在误差分析中,殊途同归。不过因为高斯在数学家中的名气实在是太大,正态分布的桂冠还是更多的被戴在了高斯的脑门上,目前数学界通行的用语是正态分布、高斯分布,两者并用。

目录
相关文章
|
6月前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
|
6月前
|
数据可视化
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
|
6月前
样条曲线分段线性回归模型piecewise regression估计个股beta值分析收益率数据
样条曲线分段线性回归模型piecewise regression估计个股beta值分析收益率数据
|
6月前
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
三大抽样分布——卡方分布、t分布、F分布
三大抽样分布——卡方分布、t分布、F分布
18 误差分布曲线的建立 - 拉普拉斯的研究
18 误差分布曲线的建立 - 拉普拉斯的研究
55 0
20 误差分布曲线的建立 - 正态分布的时间简史
20 误差分布曲线的建立 - 正态分布的时间简史
63 0
R-ggpmisc|回归曲线添加回归方程,R2,方差表,香不香?
R-ggpmisc|回归曲线添加回归方程,R2,方差表,香不香?
106 0
|
机器学习/深度学习
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
206 0
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计