MINE:随机变量互信息的估计方法

简介: MINE:随机变量互信息的估计方法

论文标题:MINE: Mutual Information Neural Estimation


论文链接:https://arxiv.org/abs/1801.04062


论文来源:ICML 2018


一、概述


互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息代表了两个随机变量的相关程度或者说依赖程度,因此在数据科学中是一种应用广泛的度量标准。

互信息能够捕捉随机变量之间的非线性统计依赖,因此可以作为变量之间真正的依赖关系的度量。然而,互信息的度量一直以来都是困难的。目前的方法仅限于对离散变量互信息的估计以及一些已知概率分布的连续变量,对于一般任务来说,互信息的估计是困难的。本文提出一种基于KL散度对偶表示的神经网络方法(称为MINE),其为互信息的估计提供了一种通用的解决方案。


QQ截图20220611223930.png

QQ截图20220611224201.png


KL散度的定义为:

QQ截图20220611224243.png


也就是说联合分布和边缘分布的乘积之间的KL散度越大,随机变量之间的依赖程度就越大。到目前为止,互信息的估计问题就转化为了KL散度的估计问题。


二、KL散度的对偶表示


MINE中应用的关键技术是KL散度的对偶表示,主要采用Donsker-Varadhan表示,同时也对比了f-divergence表示,两种方法分别记作MINE和MINE-f。


  1. f-divergence表示


  • 定义


f-divergence的定义如下:

QQ截图20220611224442.png

事实上KL散度就是f-divergence的一个特例:


QQ截图20220611224555.png


  • 共轭函数


QQ截图20220611224749.png

                                              共轭

QQ截图20220611224829.png


image.png

                                                          共轭


QQ截图20220611225028.png


image.png

                                                        共轭

QQ截图20220611225120.png


image.png

                                                       共轭

QQ截图20220611225207.png

image.png


                                                  f(x)=xlogx

QQ截图20220611225516.png


QQ截图20220611230033.png

QQ截图20220611230128.png

QQ截图20220611230345.png


  • KL散度的f-divergence表示


下表中展示了一些不同的divergence对应的函数以及它的共轭函数:


image.png

                                                共轭函数


QQ截图20220612052705.png

QQ截图20220612052804.png

  1. Donsker-Varadhan表示


Donsker-Varadhan表示来源于Asymptotic evaluation of certain markov process expectations for large time. IV这篇文章,其具体的形式为:


QQ截图20220612052858.png


三、MINE


  1. 方法QQ截图20220612053053.png

下面是MINE的算法,MINE-f也类似:


image.png

                                                       算法


  1. 随机梯度偏置的矫正


对于MINE而言,一个mini-batch内随机梯度下降的梯度为:


QQ截图20220612053347.png

QQ截图20220612053428.png

参考资料


MINE: Mutual Information Neural Estimation


【深度学习 111】MINE


F-GAN & MINE

相关文章
|
8月前
|
机器学习/深度学习 算法 数据挖掘
【MATLAB】数据拟合第10期-二阶多项式的局部加权回归拟合算法
【MATLAB】数据拟合第10期-二阶多项式的局部加权回归拟合算法
215 0
|
8月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(上)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
8月前
|
大数据
stata具有异方差误差的区间回归
stata具有异方差误差的区间回归
|
8月前
|
数据可视化
R平方/相关性取决于预测变量的方差
R平方/相关性取决于预测变量的方差
|
8月前
|
数据可视化
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
|
8月前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(下)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
8月前
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
|
8月前
|
存储 Serverless 定位技术
基于MATLAB的全局多项式插值法(趋势面法)与逆距离加权(IDW)法插值与结果分析
基于MATLAB的全局多项式插值法(趋势面法)与逆距离加权(IDW)法插值与结果分析
|
机器学习/深度学习
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2
Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数-2

热门文章

最新文章

下一篇
开通oss服务