PRML 1.6 信息论
信息内容的度量以来于某个概率分布p ( x ) 为了表达我们接受到的信息,我们寻找一个函数h ( x ) 它是概率p ( x ) 的单调函数。如果我们有两个不相关的事件x 和y那么我们观察到两个事件同时发生接收到的信息之和为
而两个事件的概率关系
可以看出概率关系和信息量的多少有一定的对数关系,因此:
其中负号保证了信息为正数或者是零。不难看出,概率越低(不确定性越大)信息量越多(大),h ( x )的单位是比特(bit,binary digit)
接着,我们用熵来评价整个随机变量x平均的信息量,而平均最好的量度就是随机变量的期望,即熵的定义如下:
根据公式可以计算出熵为2bit
从现在开始,我们会将熵的定义中的对数变成自然对数,这种情况下,熵的度量的单位是nat,而不是bit。两者的差别是⼀个ln 2的因子。
如上图所示,如果分布p ( x i )在几个值周围有尖锐的峰值,熵就会相对降低,如果相对平稳地跨过许多值,那么熵就会很高。
1.6.1 相对熵和互信息
我们已经知道了,信息熵是衡量随机变量或者整个系统的不确定性,不确定性越大,熵越大,呈正相关关系。
每一个系统都会有一个真实的概率分布,我们根据真实的概率分布找到一个最优的策略,以最小的代价消除系统的不确定性,这个"大小"就是信息熵。而如果我们以非真实的分布来选择策略来消除系统的不确定性,这个"大小"就是交叉熵。
其中p k p表示真实分布,而q k 表示非真实分布。交叉熵越低,则策略越好,所以在机器学习中,我们需要最小化交叉熵,这样我们的策略才会越接近最优策略。
我们又如何去衡量不同策略之间的差异呢?相对熵,顾名思义,相对熵是用来衡量两个取值为正的函数或概率分布之间的差异
这被称为分布p(x)和分布q(x)之间的相对熵(relative entropy),或者叫KL散度(Kullback and Leibler, 1951)。相对熵不是一个对称量,即K L ( p ∣ ∣ q ) ≠ K L ( q ∣ ∣ p )
先介绍凸函数(convex function)的概念
如果⼀个函数具有如下性质:每条弦都位于函数图像或其上⽅(如下图所⽰),那么我们说这个函数是凸函数。
如图所示,我们可以将位于[ a , b ] 之间的任何一个x xx的值都可以写成λ a + ( 1 − λ ) b ,其中0 ≤ λ ≤ 1 0,弦上对应的点可以写成λ f ( a ) + ( 1 − λ ) f ( b )。函数对应的值可以写为f ( λ a + ( 1 − λ ) b )。所以凸函数具有以下的性质:
典型的凸函数有
现在要证明,K L KLKL散度满足K L ( p ∣ ∣ q ) ≥ 0 KL(p||q),并且当且仅当p ( x ) = q ( x 时等号成立。
使用归纳法,可以证明凸函数满足:
如果将λ i 看成取值为x i 的离散变量x 的概率分布,那么上面的公式可以写成:
就是Jensen不等式,即函数的期望大于期望的函数。
对连续变量,Jensen不等式的形式为
那么对K L散度,我们有:
因为− ln x -\ln x−lnx是凸函数。又因为归一化条件∫ q ( x ) d x = 1 \int q(x) \mathrm{d}x=1∫q(x)dx=1,− l n x -lnx−lnx是严格凸函数,因此只有q ( x ) = p ( x ) q(x)=p(x)q(x)=p(x)对于所有的x xx都成立时,等号成立
因此我们可以把Kullback-Leibler散度看做两个分布p ( x ) p(x)p(x)和q ( x ) q(x)q(x)之间不相似程度的度量
假设数据通过未知分布p ( x ) 生成,我们想要对p ( x ) )建模。我们可以试着使用⼀些参数分布q ( x ∣ θ ) q(x|来近似这个分布。确定θ 的方式是最小化p ( x )和q ( x ∣ θ ) q(x|之间关于θ的K L 散度。但事实上,我们并不知道p ( x ) ,不过我们想到:
如果我们给定有限数量的N个点,这些点满足某个概率分布或者概率密度函数,那么期望可以通过求和的方式估计。
所以,假设我们已经观察到服从分布p ( x ) p(x)p(x)的有限数量的训练点x n,其中n = 1 , . . . , N 那么根据上述公式近似,即:
可以看出,该公式的第二项和θ \thetaθ无关,第一项是θ 的负对数似然函数,我们对该公式最小化,就是最大化似然函数。
下面考虑两个变量组成的数据集
p(x,y)给出两个变量x 和变量y 组成的数据集。如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积p ( x , y ) = p ( x ) p ( y ) 。但是如果变量不独立,那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的K LL散度来判断他们是否"接近"于相互独立。此时,K L散度为:
这被称为变量x xx和变量y yy之间互信息(mutual information)。根据K L 散度的性质,可以看到I [ x , y ] ≥ 0 ,当且仅当x和y 相互独立时等号成立。使⽤概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为:
因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,我们可以把p ( x ) 看成x的先验概率分布,把p ( x ∣ y ) 看成我们观察到新数据y 之后的后验概率分布。因此互信息表示⼀个新的观测y 造成的x 的不确定性的减小。