PRML 1.6 信息论

简介: PRML 1.6 信息论

PRML 1.6 信息论


信息内容的度量以来于某个概率分布p ( x ) 为了表达我们接受到的信息,我们寻找一个函数h ( x ) 它是概率p ( x ) 的单调函数。如果我们有两个不相关的事件x 和y那么我们观察到两个事件同时发生接收到的信息之和为

image.png

而两个事件的概率关系

image.png

可以看出概率关系和信息量的多少有一定的对数关系,因此:


image.png

其中负号保证了信息为正数或者是零。不难看出,概率越低(不确定性越大)信息量越多(大),h ( x )的单位是比特(bit,binary digit)

接着,我们用熵来评价整个随机变量x平均的信息量,而平均最好的量度就是随机变量的期望,即熵的定义如下:

image.png


image.png

根据公式可以计算出熵为2bit


2021071100474471.png

从现在开始,我们会将熵的定义中的对数变成自然对数,这种情况下,熵的度量的单位是nat,而不是bit。两者的差别是⼀个ln 2的因子。

如上图所示,如果分布p ( x i )在几个值周围有尖锐的峰值,熵就会相对降低,如果相对平稳地跨过许多值,那么熵就会很高。


1.6.1 相对熵和互信息


我们已经知道了,信息熵是衡量随机变量或者整个系统的不确定性,不确定性越大,熵越大,呈正相关关系


每一个系统都会有一个真实的概率分布,我们根据真实的概率分布找到一个最优的策略,以最小的代价消除系统的不确定性,这个"大小"就是信息熵。而如果我们以非真实的分布来选择策略来消除系统的不确定性,这个"大小"就是交叉熵。


image.png


其中p k p表示真实分布,而q k 表示非真实分布。交叉熵越低,则策略越好,所以在机器学习中,我们需要最小化交叉熵,这样我们的策略才会越接近最优策略。


我们又如何去衡量不同策略之间的差异呢?相对熵,顾名思义,相对熵是用来衡量两个取值为正的函数或概率分布之间的差异


image.png

这被称为分布p(x)和分布q(x)之间的相对熵(relative entropy),或者叫KL散度(Kullback and Leibler, 1951)。相对熵不是一个对称量,即K L ( p ∣ ∣ q ) ≠ K L ( q ∣ ∣ p )

先介绍凸函数(convex function)的概念

如果⼀个函数具有如下性质:每条弦都位于函数图像或其上⽅(如下图所⽰),那么我们说这个函数是凸函数。



20210711004656121.png

如图所示,我们可以将位于[ a , b ] 之间的任何一个x xx的值都可以写成λ a + ( 1 − λ ) b ,其中0 ≤ λ ≤ 1 0,弦上对应的点可以写成λ f ( a ) + ( 1 − λ ) f ( b )。函数对应的值可以写为f ( λ a + ( 1 − λ ) b )。所以凸函数具有以下的性质:

image.png

典型的凸函数有image.png


现在要证明,K L KLKL散度满足K L ( p ∣ ∣ q ) ≥ 0 KL(p||q),并且当且仅当p ( x ) = q ( x 时等号成立。


使用归纳法,可以证明凸函数满足:


image.png


如果将λ i 看成取值为x i 的离散变量x 的概率分布,那么上面的公式可以写成:


image.png

就是Jensen不等式,即函数的期望大于期望的函数。

对连续变量,Jensen不等式的形式为

image.png

那么对K L散度,我们有:


image.png

因为− ln ⁡ x -\ln x−lnx是凸函数。又因为归一化条件∫ q ( x ) d x = 1 \int q(x) \mathrm{d}x=1∫q(x)dx=1,− l n x -lnx−lnx是严格凸函数,因此只有q ( x ) = p ( x ) q(x)=p(x)q(x)=p(x)对于所有的x xx都成立时,等号成立


因此我们可以把Kullback-Leibler散度看做两个分布p ( x ) p(x)p(x)和q ( x ) q(x)q(x)之间不相似程度的度量


假设数据通过未知分布p ( x ) 生成,我们想要对p ( x ) )建模。我们可以试着使用⼀些参数分布q ( x ∣ θ ) q(x|来近似这个分布。确定θ 的方式是最小化p ( x )和q ( x ∣ θ ) q(x|之间关于θ的K L 散度。但事实上,我们并不知道p ( x ) ,不过我们想到:


如果我们给定有限数量的N个点,这些点满足某个概率分布或者概率密度函数,那么期望可以通过求和的方式估计。

image.png

所以,假设我们已经观察到服从分布p ( x ) p(x)p(x)的有限数量的训练点x n,其中n = 1 , . . . , N 那么根据上述公式近似,即:

image.png

可以看出,该公式的第二项和θ \thetaθ无关,第一项是θ 的负对数似然函数,我们对该公式最小化,就是最大化似然函数。


下面考虑两个变量组成的数据集


p(x,y)给出两个变量x 和变量y 组成的数据集。如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积p ( x , y ) = p ( x ) p ( y ) 。但是如果变量不独立,那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的K LL散度来判断他们是否"接近"于相互独立。此时,K L散度为:


image.png

这被称为变量x xx和变量y yy之间互信息(mutual information)。根据K L 散度的性质,可以看到I [ x , y ] ≥ 0 ,当且仅当x和y 相互独立时等号成立。使⽤概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为:

image.png

因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,我们可以把p ( x ) 看成x的先验概率分布,把p ( x ∣ y ) 看成我们观察到新数据y 之后的后验概率分布。因此互信息表示⼀个新的观测y 造成的x 的不确定性的减小。

相关文章
|
8月前
|
机器学习/深度学习 算法 决策智能
凸优化介绍
凸优化介绍。更多文章请关注我的微信公众号:Python学习杂记
95 0
|
8月前
|
存储 大数据 数据挖掘
浅析概率论的应用
浅析概率论的应用 【摘 要】在学习概率论与数理统计过程中,我们可以发现随机现象存在于我们日常生活的方方面面和科学技术的各个领域。并且概率论与数理统计不仅是一门十分重要的大学数学基础课, 还是唯一一门研究随机现象规律的学科,它指导人们从事物表
68 0
|
12月前
概率论|贝叶斯公式及其推论的理解和运用
概率论|贝叶斯公式及其推论的理解和运用
125 0
|
编解码
【小波理论及其应用】
【小波理论及其应用】
133 0
|
机器学习/深度学习 传感器 算法
基于正交对立学习的改进麻雀搜索算法( OOLSSA)附matlab代码
基于正交对立学习的改进麻雀搜索算法( OOLSSA)附matlab代码
|
机器学习/深度学习 人工智能 算法
博弈论算法的实现
博弈论算法的实现
博弈论算法的实现
|
算法 决策智能 C++
博弈论算法的实现2
博弈论算法的实现2
博弈论算法的实现2
|
机器学习/深度学习 人工智能 算法
概率与信息论
概率与信息论
120 0

热门文章

最新文章