24 正态分布和最大熵

简介: 24 正态分布和最大熵

还有一条小径是基于最大熵原理的,物理学家E.T.Jaynes在最大熵原理上有非常重要的贡献,他在《概率论沉思录》里面对这个方法有描述和证明,没有提到发现者,不过难以确认这条道的发现者是否是Jaynes本人。

熵在物理学中由来已久,信息论的创始人香农(Claude Elwood Shannon)把这个概念引入了信息论,读者中很多人可能都知道目前机器学习中有一个非常好用的分类算法叫最大熵分类器。要想把熵和最大熵的来龙去脉说清楚可不容易,不过这条道的风景是相当独特的,E.T.Jaynes对这条道也是偏爱有加。

对于一个概率分布,我们定义它的熵为:

E.T.Jaynes显然对正态分布具有这样的性质极为赞赏,因为这从信息论的角度证明了正态分布的优良性。而我们可以看到,正态分布熵的大小,取决于方差的大小。这也容易理解,因为正态分布的均值和密度函数的形状无关,正态分布的形状是由其方差决定的,而熵的大小反应概率分布中的信息量,显然和密度函数的形状相关。

所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.
—Henri Poincaré

目录
相关文章
|
2月前
|
数据采集
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
R语言用线性模型进行臭氧预测: 加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
|
2月前
R语言多项式线性模型:最大似然估计二次曲线
R语言多项式线性模型:最大似然估计二次曲线
|
10月前
|
资源调度 数据处理
第8章 概率统计——8.1 产生随机变量
第8章 概率统计——8.1 产生随机变量
曲线拟合-最小二乘法
线性最小二乘法及matlab例程
|
机器学习/深度学习
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
147 0
先验分布、后验分布、似然估计、贝叶斯估计、最大似然估计
基于偏差校正似然的贝叶斯参数估计
基于偏差校正似然的贝叶斯参数估计
134 0
基于偏差校正似然的贝叶斯参数估计
L5-参数估计:矩估计与极大似然估计
L5-参数估计:矩估计与极大似然估计
L5-参数估计:矩估计与极大似然估计
|
移动开发
概率与信息论:期望、方差、标准差和协方差
概率与信息论:期望、方差、标准差和协方差
173 0
无偏估计
定义 无偏估计:估计量的均值等于真实值,即具体每一次估计值可能大于真实值,也可能小于真实值,而不能总是大于或小于真实值(这就产生了系统误差)。 估计量评价的标准 (1)无偏性 如上述 (2)有效性 有效性是指估计量与总体参数的离散程度。
1139 0