PRML 1.6 信息论-阿里云开发者社区

PRML 1.6 信息论

2022-11-15 110

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PRML 1.6 信息论

PRML 1.6 信息论

信息内容的度量以来于某个概率分布p ( x ) 为了表达我们接受到的信息，我们寻找一个函数h ( x ) 它是概率p ( x ) 的单调函数。如果我们有两个不相关的事件x 和y那么我们观察到两个事件同时发生接收到的信息之和为

而两个事件的概率关系

可以看出概率关系和信息量的多少有一定的对数关系，因此：

其中负号保证了信息为正数或者是零。不难看出，概率越低（不确定性越大）信息量越多（大），h ( x )的单位是比特（bit，binary digit）

接着，我们用熵来评价整个随机变量x平均的信息量，而平均最好的量度就是随机变量的期望，即熵的定义如下：

根据公式可以计算出熵为2bit

从现在开始，我们会将熵的定义中的对数变成自然对数，这种情况下，熵的度量的单位是nat，而不是bit。两者的差别是⼀个ln 2的因子。

如上图所示，如果分布p ( x i )在几个值周围有尖锐的峰值，熵就会相对降低，如果相对平稳地跨过许多值，那么熵就会很高。

1.6.1 相对熵和互信息

我们已经知道了，信息熵是衡量随机变量或者整个系统的不确定性，不确定性越大，熵越大，呈正相关关系。

每一个系统都会有一个真实的概率分布，我们根据真实的概率分布找到一个最优的策略，以最小的代价消除系统的不确定性，这个"大小"就是信息熵。而如果我们以非真实的分布来选择策略来消除系统的不确定性，这个"大小"就是交叉熵。

其中p k p表示真实分布，而q k 表示非真实分布。交叉熵越低，则策略越好，所以在机器学习中，我们需要最小化交叉熵，这样我们的策略才会越接近最优策略。

我们又如何去衡量不同策略之间的差异呢？相对熵，顾名思义，相对熵是用来衡量两个取值为正的函数或概率分布之间的差异

这被称为分布p(x)和分布q(x)之间的相对熵（relative entropy），或者叫KL散度（Kullback and Leibler, 1951）。相对熵不是一个对称量，即K L ( p ∣ ∣ q ) ≠ K L ( q ∣ ∣ p )

先介绍凸函数（convex function）的概念

如果⼀个函数具有如下性质：每条弦都位于函数图像或其上⽅（如下图所⽰），那么我们说这个函数是凸函数。

如图所示，我们可以将位于[ a , b ] 之间的任何一个x xx的值都可以写成λ a + ( 1 − λ ) b ，其中0 ≤ λ ≤ 1 0，弦上对应的点可以写成λ f ( a ) + ( 1 − λ ) f ( b )。函数对应的值可以写为f ( λ a + ( 1 − λ ) b )。所以凸函数具有以下的性质：

典型的凸函数有

现在要证明，K L KLKL散度满足K L ( p ∣ ∣ q ) ≥ 0 KL(p||q)，并且当且仅当p ( x ) = q ( x 时等号成立。

使用归纳法，可以证明凸函数满足：

如果将λ i 看成取值为x i 的离散变量x 的概率分布，那么上面的公式可以写成:

就是Jensen不等式，即函数的期望大于期望的函数。

对连续变量，Jensen不等式的形式为

那么对K L散度，我们有:

因为− ln ⁡ x -\ln x−lnx是凸函数。又因为归一化条件∫ q ( x ) d x = 1 \int q(x) \mathrm{d}x=1∫q(x)dx=1，− l n x -lnx−lnx是严格凸函数，因此只有q ( x ) = p ( x ) q(x)=p(x)q(x)=p(x)对于所有的x xx都成立时，等号成立

因此我们可以把Kullback-Leibler散度看做两个分布p ( x ) p(x)p(x)和q ( x ) q(x)q(x)之间不相似程度的度量

假设数据通过未知分布p ( x ) 生成，我们想要对p ( x ) )建模。我们可以试着使用⼀些参数分布q ( x ∣ θ ) q(x|来近似这个分布。确定θ 的方式是最小化p ( x )和q ( x ∣ θ ) q(x|之间关于θ的K L 散度。但事实上，我们并不知道p ( x ) ，不过我们想到：

如果我们给定有限数量的N个点，这些点满足某个概率分布或者概率密度函数，那么期望可以通过求和的方式估计。

所以，假设我们已经观察到服从分布p ( x ) p(x)p(x)的有限数量的训练点x n，其中n = 1 , . . . , N 那么根据上述公式近似，即：

可以看出，该公式的第二项和θ \thetaθ无关，第一项是θ 的负对数似然函数，我们对该公式最小化，就是最大化似然函数。

下面考虑两个变量组成的数据集

p(x,y)给出两个变量x 和变量y 组成的数据集。如果变量的集合是独立的，那么他们的联合分布可以分解为边缘分布的乘积p ( x , y ) = p ( x ) p ( y ) 。但是如果变量不独立，那么我们可以通过考察联合概率分布与边缘概率分布乘积之间的K LL散度来判断他们是否"接近"于相互独立。此时，K L散度为：

这被称为变量x xx和变量y yy之间互信息（mutual information）。根据K L 散度的性质，可以看到I [ x , y ] ≥ 0 ，当且仅当x和y 相互独立时等号成立。使⽤概率的加和规则和乘积规则，我们看到互信息和条件熵之间的关系为：

因此我们可以把互信息看成由于知道y值而造成的x的不确定性的减小（反之亦然）。从贝叶斯的观点来看，我们可以把p ( x ) 看成x的先验概率分布，把p ( x ∣ y ) 看成我们观察到新数据y 之后的后验概率分布。因此互信息表示⼀个新的观测y 造成的x 的不确定性的减小。

PRML 1.6 信息论

PRML 1.6 信息论

1.6.1 相对熵和互信息

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

PRML 1.6 信息论

PRML 1.6 信息论

1.6.1 相对熵和互信息

热门文章

最新文章

相关课程

相关电子书