MINE:随机变量互信息的估计方法

简介: MINE:随机变量互信息的估计方法

论文标题:MINE: Mutual Information Neural Estimation


论文链接:https://arxiv.org/abs/1801.04062


论文来源:ICML 2018


一、概述


互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息代表了两个随机变量的相关程度或者说依赖程度,因此在数据科学中是一种应用广泛的度量标准。

互信息能够捕捉随机变量之间的非线性统计依赖,因此可以作为变量之间真正的依赖关系的度量。然而,互信息的度量一直以来都是困难的。目前的方法仅限于对离散变量互信息的估计以及一些已知概率分布的连续变量,对于一般任务来说,互信息的估计是困难的。本文提出一种基于KL散度对偶表示的神经网络方法(称为MINE),其为互信息的估计提供了一种通用的解决方案。


QQ截图20220611223930.png

QQ截图20220611224201.png


KL散度的定义为:

QQ截图20220611224243.png


也就是说联合分布和边缘分布的乘积之间的KL散度越大,随机变量之间的依赖程度就越大。到目前为止,互信息的估计问题就转化为了KL散度的估计问题。


二、KL散度的对偶表示


MINE中应用的关键技术是KL散度的对偶表示,主要采用Donsker-Varadhan表示,同时也对比了f-divergence表示,两种方法分别记作MINE和MINE-f。


  1. f-divergence表示


  • 定义


f-divergence的定义如下:

QQ截图20220611224442.png

事实上KL散度就是f-divergence的一个特例:


QQ截图20220611224555.png


  • 共轭函数


QQ截图20220611224749.png

                                              共轭

QQ截图20220611224829.png


image.png

                                                          共轭


QQ截图20220611225028.png


image.png

                                                        共轭

QQ截图20220611225120.png


image.png

                                                       共轭

QQ截图20220611225207.png

image.png


                                                  f(x)=xlogx

QQ截图20220611225516.png


QQ截图20220611230033.png

QQ截图20220611230128.png

QQ截图20220611230345.png


  • KL散度的f-divergence表示


下表中展示了一些不同的divergence对应的函数以及它的共轭函数:


image.png

                                                共轭函数


QQ截图20220612052705.png

QQ截图20220612052804.png

  1. Donsker-Varadhan表示


Donsker-Varadhan表示来源于Asymptotic evaluation of certain markov process expectations for large time. IV这篇文章,其具体的形式为:


QQ截图20220612052858.png


三、MINE


  1. 方法QQ截图20220612053053.png

下面是MINE的算法,MINE-f也类似:


image.png

                                                       算法


  1. 随机梯度偏置的矫正


对于MINE而言,一个mini-batch内随机梯度下降的梯度为:


QQ截图20220612053347.png

QQ截图20220612053428.png

参考资料


MINE: Mutual Information Neural Estimation


【深度学习 111】MINE


F-GAN & MINE

相关文章
|
3天前
|
数据可视化
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
|
4天前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
17 5
|
3天前
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
|
4天前
|
数据可视化
R平方/相关性取决于预测变量的方差
R平方/相关性取决于预测变量的方差
12 4
|
4天前
R语言异方差回归模型建模:用误差方差解释异方差
R语言异方差回归模型建模:用误差方差解释异方差
|
5月前
【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理
【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理
49 0
|
9月前
|
机器学习/深度学习 算法
概率论--随机事件与概率--贝叶斯公式--随机变量
概率论--随机事件与概率--贝叶斯公式--随机变量
|
8月前
|
机器学习/深度学习 决策智能
矩阵分析 (七) 矩阵特征值的估计
矩阵分析 (七) 矩阵特征值的估计
116 0
|
9月前
概率论--数学期望与方差--协方差(详解)
概率论--数学期望与方差--协方差(详解)
多变的夏普率二---正态分布约束下的样本的标准差是无偏估计?
多变的夏普率二---正态分布约束下的样本的标准差是无偏估计?
55 0
多变的夏普率二---正态分布约束下的样本的标准差是无偏估计?