PRML 1.6 信息论

简介: PRML 1.6 信息论

PRML 1.6 信息论


信息内容的度量以来于某个概率分布p ( x ) 为了表达我们接受到的信息,我们寻找一个函数h ( x ) 它是概率p ( x ) 的单调函数。如果我们有两个不相关的事件x 和y那么我们观察到两个事件同时发生接收到的信息之和为

image.png

而两个事件的概率关系

image.png

可以看出概率关系和信息量的多少有一定的对数关系,因此:


image.png

其中负号保证了信息为正数或者是零。不难看出,概率越低(不确定性越大)信息量越多(大),h ( x )的单位是比特(bit,binary digit)

接着,我们用熵来评价整个随机变量x平均的信息量,而平均最好的量度就是随机变量的期望,即熵的定义如下:

image.png


image.png

根据公式可以计算出熵为2bit


2021071100474471.png

从现在开始,我们会将熵的定义中的对数变成自然对数,这种情况下,熵的度量的单位是nat,而不是bit。两者的差别是⼀个ln 2的因子。

如上图所示,如果分布p ( x i )在几个值周围有尖锐的峰值,熵就会相对降低,如果相对平稳地跨过许多值,那么熵就会很高。


1.6.1 相对熵和互信息


我们已经知道了,信息熵是衡量随机变量或者整个系统的不确定性,不确定性越大,熵越大,呈正相关关系


每一个系统都会有一个真实的概率分布,我们根据真实的概率分布找到一个最优的策略,以最小的代价消除系统的不确定性,这个"大小"就是信息熵。而如果我们以非真实的分布来选择策略来消除系统的不确定性,这个"大小"就是交叉熵。


image.png


其中p k p表示真实分布,而q k 表示非真实分布。交叉熵越低,则策略越好,所以在机器学习中,我们需要最小化交叉熵,这样我们的策略才会越接近最优策略。


我们又如何去衡量不同策略之间的差异呢?相对熵,顾名思义,相对熵是用来衡量两个取值为正的函数或概率分布之间的差异


image.png

这被称为分布p(x)和分布q(x)之间的相对熵(relative entropy),或者叫KL散度(Kullback and Leibler, 1951)。相对熵不是一个对称量,即K L ( p ∣ ∣ q ) ≠ K L ( q ∣ ∣ p )

先介绍凸函数(convex function)的概念

如果⼀个函数具有如下性质:每条弦都位于函数图像或其上⽅(如下图所⽰),那么我们说这个函数是凸函数。



20210711004656121.png

如图所示,我们可以将位于[ a , b ] 之间的任何一个x xx的值都可以写成λ a + ( 1 − λ ) b ,其中0 ≤ λ ≤ 1 0,弦上对应的点可以写成λ f ( a ) + ( 1 − λ ) f ( b )。函数对应的值可以写为f ( λ a + ( 1 − λ ) b )。所以凸函数具有以下的性质:

image.png

典型的凸函数有image.png


现在要证明,K L KLKL散度满足K L ( p ∣ ∣ q ) ≥ 0 KL(p||q),并且当且仅当p ( x ) = q ( x 时等号成立。


使用归纳法,可以证明凸函数满足:


image.png


如果将λ i 看成取值为x i 的离散变量x 的概率分布,那么上面的公式可以写成:


image.png

就是Jensen不等式,即函数的期望大于期望的函数。

对连续变量,Jensen不等式的形式为

image.png

那么对K L散度,我们有:


image.png

因为− ln ⁡ x -\ln x−lnx是凸函数。又因为归一化条件∫ q ( x ) d x = 1 \int q(x) \mathrm{d}x=1∫q(x)dx=1,− l n x -lnx−lnx是严格凸函数,因此只有q ( x ) = p ( x ) q(x)=p(x)q(x)=p(x)对于所有的x xx都成立时,等号成立


因此我们可以把Kullback-Leibler散度看做两个分布p ( x ) p(x)p(x)和q ( x ) q(x)q(x)之间不相似程度的度量


假设数据通过未知分布p ( x ) 生成,我们想要对p ( x ) )建模。我们可以试着使用⼀些参数分布q ( x ∣ θ ) q(x|来近似这个分布。确定θ 的方式是最小化p ( x )和q ( x ∣ θ ) q(x|之间关于θ的K L 散度。但事实上,我们并不知道p ( x ) ,不过我们想到:


如果我们给定有限数量的N个点,这些点满足某个概率分布或者概率密度函数,那么期望可以通过求和的方式估计。

image.png

所以,假设我们已经观察到服从分布p ( x ) p(x)p(x)的有限数量的训练点x n,其中n = 1 , . . . , N 那么根据上述公式近似,即:

image.png

可以看出,该公式的第二项和θ \thetaθ无关,第一项是θ 的负对数似然函数,我们对该公式最小化,就是最大化似然函数。


下面考虑两个变量组成的数据集


p(x,y)给出两个变量x 和变量y 组成的数据集。如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积p ( x , y ) = p ( x ) p ( y ) 。但是如果变量不独立,那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的K LL散度来判断他们是否"接近"于相互独立。此时,K L散度为:


image.png

这被称为变量x xx和变量y yy之间互信息(mutual information)。根据K L 散度的性质,可以看到I [ x , y ] ≥ 0 ,当且仅当x和y 相互独立时等号成立。使⽤概率的加和规则和乘积规则,我们看到互信息和条件熵之间的关系为:

image.png

因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。从贝叶斯的观点来看,我们可以把p ( x ) 看成x的先验概率分布,把p ( x ∣ y ) 看成我们观察到新数据y 之后的后验概率分布。因此互信息表示⼀个新的观测y 造成的x 的不确定性的减小。

相关文章
|
1月前
|
机器学习/深度学习 数据可视化
KAN干翻MLP,开创神经网络新范式!一个数十年前数学定理,竟被MIT华人学者复活了
【10月更文挑战第12天】MIT华人学者提出了一种基于Kolmogorov-Arnold表示定理的新型神经网络——KAN。与传统MLP不同,KAN将可学习的激活函数放在权重上,使其在表达能力、准确性、可解释性和收敛速度方面表现出显著优势,尤其在处理高维数据时效果更佳。然而,KAN的复杂性也可能带来部署和维护的挑战。论文地址:https://arxiv.org/pdf/2404.19756
40 1
|
决策智能
博弈论第十集总结
博弈论第十集总结
54 0
|
6月前
|
测试技术 决策智能
博弈论
博弈论
|
决策智能
博弈论第九集总结
博弈论第九集总结
75 0
|
决策智能
博弈论第五集总结
博弈论第五集总结
71 0
|
决策智能
博弈论第三集总结
博弈论第三集总结
57 0
|
决策智能
博弈论第四集总结
博弈论第四集总结
46 0
|
决策智能
博弈论第六集总结
博弈论第六集总结
86 0
|
决策智能
博弈论第二集总结
博弈论第二集总结
63 0
|
决策智能
博弈论第七集总结
博弈论第七集总结
83 0