备案控制台

开发者社区人工智能文章正文

MINE：随机变量互信息的估计方法

2022-06-12 792

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MINE：随机变量互信息的估计方法

论文标题：MINE: Mutual Information Neural Estimation

论文链接：https://arxiv.org/abs/1801.04062

论文来源：ICML 2018

一、概述

互信息（Mutual Information）是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息代表了两个随机变量的相关程度或者说依赖程度，因此在数据科学中是一种应用广泛的度量标准。

互信息能够捕捉随机变量之间的非线性统计依赖，因此可以作为变量之间真正的依赖关系的度量。然而，互信息的度量一直以来都是困难的。目前的方法仅限于对离散变量互信息的估计以及一些已知概率分布的连续变量，对于一般任务来说，互信息的估计是困难的。本文提出一种基于KL散度对偶表示的神经网络方法（称为MINE），其为互信息的估计提供了一种通用的解决方案。

QQ截图20220611223930.png

QQ截图20220611224201.png

KL散度的定义为：

QQ截图20220611224243.png

也就是说联合分布和边缘分布的乘积之间的KL散度越大，随机变量之间的依赖程度就越大。到目前为止，互信息的估计问题就转化为了KL散度的估计问题。

二、KL散度的对偶表示

MINE中应用的关键技术是KL散度的对偶表示，主要采用Donsker-Varadhan表示，同时也对比了f-divergence表示，两种方法分别记作MINE和MINE-f。

f-divergence表示

定义

f-divergence的定义如下：

QQ截图20220611224442.png

事实上KL散度就是f-divergence的一个特例：

QQ截图20220611224555.png

共轭函数

QQ截图20220611224749.png

共轭

QQ截图20220611224829.png

共轭

QQ截图20220611225028.png

共轭

QQ截图20220611225120.png

共轭

QQ截图20220611225207.png

f(x)=xlogx

QQ截图20220611225516.png

QQ截图20220611230033.png

QQ截图20220611230128.png

QQ截图20220611230345.png

KL散度的f-divergence表示

下表中展示了一些不同的divergence对应的函数以及它的共轭函数：

共轭函数

QQ截图20220612052705.png

QQ截图20220612052804.png

Donsker-Varadhan表示

Donsker-Varadhan表示来源于Asymptotic evaluation of certain markov process expectations for large time. IV这篇文章，其具体的形式为：

QQ截图20220612052858.png

三、MINE

方法

下面是MINE的算法，MINE-f也类似：

算法

随机梯度偏置的矫正

对于MINE而言，一个mini-batch内随机梯度下降的梯度为：

QQ截图20220612053347.png

QQ截图20220612053428.png

参考资料

MINE: Mutual Information Neural Estimation

【深度学习 111】MINE

文章标签：

机器学习/深度学习

算法

酷酷的群

目录

相关文章

拓端数据部落

|

6月前

|

大数据

stata具有异方差误差的区间回归

stata具有异方差误差的区间回归

拓端数据部落

62 5 5

拓端数据部落

|

6月前

|

数据可视化

R语言极值推断：广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法

R语言极值推断：广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法

拓端数据部落

119 1 1

柠檬叶子C

【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理

【概率论基础】Probability | 数学性概率 | 统计性概率 | 几何概率 | 概率论三大公理

柠檬叶子C

117 0 0

拓端数据部落

|

6月前

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

拓端数据部落

53 0 0

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

拓端数据部落

|

6月前

样条曲线分段线性回归模型piecewise regression估计个股beta值分析收益率数据

样条曲线分段线性回归模型piecewise regression估计个股beta值分析收益率数据

拓端数据部落

43 0 0

拓端数据部落

|

6月前

|

vr&ar

matlab估计arma garch 条件均值和方差模型

matlab估计arma garch 条件均值和方差模型

拓端数据部落

44 0 0

拓端数据部落

|

6月前

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

拓端数据部落

109 0 0

小小何先生

|

机器学习/深度学习决策智能

矩阵分析 (七) 矩阵特征值的估计

矩阵分析 (七) 矩阵特征值的估计

小小何先生

168 0 0

matches999

【数理统计】参数估计及相关（点估计、矩估计法、最大似然估计、原点矩&中心距）

【数理统计】参数估计及相关（点估计、矩估计法、最大似然估计、原点矩&中心距）

matches999

317 0 0

【数理统计】参数估计及相关（点估计、矩估计法、最大似然估计、原点矩&中心距）

机器学习Zero

L5-参数估计：矩估计与极大似然估计

L5-参数估计：矩估计与极大似然估计

机器学习Zero

212 0 0

L5-参数估计：矩估计与极大似然估计

热门文章

最新文章

Java 生成 UUID

一文读懂 Serverless 的起源、发展和落地实践

Fiddler抓包：下载、安装及使用

用CodeViz绘制函数调用关系图(call graph)

阿里AI上岗双11服装车间，能识别头发丝直径十分之一的瑕疵

SpringBoot开发案例之整合Dubbo提供者(一)

Dubbo架构介绍

警惕垃圾邮件借加沙新闻进行钓鱼攻击

美国博客刊文发布NetApp StoreVault停产通知

IntelliJ IDEA 12 创建Web项目教程超详细版

通义灵码与云计算平台的融合：基础与概述

《深度解析：死锁的“前世今生”与防范之道》

《探秘程序崩溃：核心转储（Core Dump）分析全攻略》

今日 AI 开源｜共 12 项｜开源的DIY健康追踪项目，基于低成本的智能戒指构建私人的健康监测应用

Open Interpreter：AI 赋能终端！在终端中对话AI模型进行编程，通过运行代码来完成各种计算机操作任务

「Mac畅玩鸿蒙与硬件15」鸿蒙UI组件篇5 - Slider 和 Progress 组件

ai断点怎么做?

AI Shell：在命令行里“对话” AI ，微软推出将 AI 助手引入命令行的 CLI 工具，打造对话式交互命令行

ai怎么设计迷宫字体效果?

「Mac畅玩鸿蒙与硬件14」鸿蒙UI组件篇4 - Toggle 和 Checkbox 组件

相关课程

更多

【算法实战】11. K-Means（K-均值）聚类算法

【算法实战】5. Logistic回归算法

【算法实战】9. 线性回归算法

【算法实战】2. K近邻算法

相关电子书

更多

ADMM

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云OSS设置跨域访问