17 误差分布曲线的建立 - 辛普森的研究

简介: 17 误差分布曲线的建立 - 辛普森的研究

十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数据分析工作中被提出来讨论:测量中的随机误差应该服从怎样的概率分布?算术平均的优良性和误差的分布有怎样的密切联系?

伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括:

  • 误差是对称分布的分布在0的两侧;
  • 大的误差出现频率低,小的误差出现频率高。

用数学的语言描述,也就是说误差分布函数f(x)关于0对称分布,概率密度随|x|增加而减小,这两个定性的描述都很符合常识。

辛普森的工作

许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。

  • 设真值为θ,而为n次测量值,现在用测量值去估计真值θ,那么每次测量的误差为
  • 但若用算术平均去估计θ呢,则其误差为

Simpson证明了,对于如下的一个概率分布,

有这样的估计:

也就是说,

相比于

取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 编解码
数据分享|R语言PCA主成分、lasso、岭回归降维分析近年来各国土地面积变化影响
数据分享|R语言PCA主成分、lasso、岭回归降维分析近年来各国土地面积变化影响
|
16天前
|
机器学习/深度学习 算法 数据可视化
时间序列预测的不确定性区间估计:基于EnbPI的方法与应用研究
本文探讨了时间序列预测中不确定性量化的问题,特别是基于一致性预测理论的EnbPI方法。EnbPI通过集成学习和自举采样技术,解决了传统方法在处理非平稳时间序列数据时的局限性,提供了一种分布无关的预测区间构建方法,支持任意估计器的集成,并在推理阶段保持高效。实验结果显示,EnbPI在德国电力价格预测中表现出良好的覆盖率和适应性,尽管存在一定的计算成本。
36 0
|
7月前
|
存储 数据采集 数据可视化
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
R语言拟合线性混合效应模型、固定效应随机效应参数估计可视化生物生长、发育、繁殖影响因素
|
7月前
|
存储
【视频】R语言中的分布滞后非线性模型(DLNM)与发病率,死亡率和空气污染示例
【视频】R语言中的分布滞后非线性模型(DLNM)与发病率,死亡率和空气污染示例
|
7月前
|
数据可视化 测试技术
R语言几何布朗运动GBM模拟股票价格优化建立期权定价用概率加权收益曲线可视化
R语言几何布朗运动GBM模拟股票价格优化建立期权定价用概率加权收益曲线可视化
|
7月前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
|
7月前
|
NoSQL 数据处理
【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享(上)
【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享
|
7月前
|
数据可视化 数据建模
【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享(下)
【视频】R语言极值理论EVT:基于GPD模型的火灾损失分布分析|数据分享
|
7月前
|
数据可视化
R语言建模收入不平等:分布函数拟合及洛伦兹曲线(Lorenz curve)
R语言建模收入不平等:分布函数拟合及洛伦兹曲线(Lorenz curve)
|
7月前
|
存储
R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例
R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例