论文标题:MINE: Mutual Information Neural Estimation
论文链接:https://arxiv.org/abs/1801.04062
论文来源:ICML 2018
一、概述
互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息代表了两个随机变量的相关程度或者说依赖程度,因此在数据科学中是一种应用广泛的度量标准。
互信息能够捕捉随机变量之间的非线性统计依赖,因此可以作为变量之间真正的依赖关系的度量。然而,互信息的度量一直以来都是困难的。目前的方法仅限于对离散变量互信息的估计以及一些已知概率分布的连续变量,对于一般任务来说,互信息的估计是困难的。本文提出一种基于KL散度对偶表示的神经网络方法(称为MINE),其为互信息的估计提供了一种通用的解决方案。
KL散度的定义为:
也就是说联合分布和边缘分布的乘积之间的KL散度越大,随机变量之间的依赖程度就越大。到目前为止,互信息的估计问题就转化为了KL散度的估计问题。
二、KL散度的对偶表示
MINE中应用的关键技术是KL散度的对偶表示,主要采用Donsker-Varadhan表示,同时也对比了f-divergence表示,两种方法分别记作MINE和MINE-f。
- f-divergence表示
- 定义
f-divergence的定义如下:
事实上KL散度就是f-divergence的一个特例:
- 共轭函数
共轭
共轭
共轭
共轭
f(x)=xlogx
- KL散度的f-divergence表示
下表中展示了一些不同的divergence对应的函数以及它的共轭函数:
共轭函数
- Donsker-Varadhan表示
Donsker-Varadhan表示来源于Asymptotic evaluation of certain markov process expectations for large time. IV这篇文章,其具体的形式为:
三、MINE
- 方法
下面是MINE的算法,MINE-f也类似:
算法
- 随机梯度偏置的矫正
对于MINE而言,一个mini-batch内随机梯度下降的梯度为:
参考资料
MINE: Mutual Information Neural Estimation