Deep InfoMax:基于互信息最大化的表示学习

简介: Deep InfoMax:基于互信息最大化的表示学习

论文标题:Learning deep representations by mutual information estimation and maximization


论文链接:https://arxiv.org/abs/1808.06670


论文来源:ICLR 2019


之前的相关博客:MINE:随机变量互信息的估计方法


一、概述


本文提出的方法主要目的是训练一个表示学习的函数(也就是一个encoder)来最大化其输入与输出之间的互信息(Mutual Information, MI)。高维连续随机变量互信息的估计一向是个困难的问题,然而最近的方法(上面的博客)已经可以利用神经网络来对互信息进行有效地计算。


本文的方法利用互信息的估计来进行表示学习,并且表明完整的输入和encoder输出之间的互信息(global MI)对于学习到有用的表示来说是不足够的,输入的结构也起到一定作用,也就是说,表示与输入的局部部分(比如图片的patch)之间的互信息(local MI)能够提高表示的质量,而global MI在给定表示重构输入方面有重要的作用。


二、方法


  1. 介绍


image.png

                                               encoder


本文的encoder按照以下标准进行训练:


image.png


  1. 互信息最大化(Global MI)


  • 框架


下图展示了互信息(global MI)最大化的基本框架:


image.png

                                             global MI


image.png


  • JS散度形式


另外,我们的目的是要最大化互信息,而不是估计其值(上述KL散度形式的互信息可以作为互信息的估计值),因此我们可以采用其他非KL散度的形式,比如Jensen-Shannon MI估计:


image.png

image.png


  • InfoNCE形式


本文还利用了另外一种互信息的下界表示的形式,由InfoNCE损失而来。InfoNCE的目标是最大化正样本对的得分,最小化负样本对的得分,其形式为:


image.png


本文实验采用了JSD和InfoNCE两种形式,在下游任务上,使用InfoNCE通常优于JSD,尽管这种效果随着更具挑战性的数据而减弱。InfoNCE和DV需要大量的负样本,而JSD对负样本的数量够没那么敏感,在负样本数量较小时效果优于InfoNCE。


  • 算法


Global MI的算法为:


image.png


  1. 局部互信息最大化(Local MI)


  • 框架


对于global MI来说,某些任务可能是不必要的。举例来说,像素级别的噪声对于图像分类任务来说是不重要的,所以图片的表示不应该编码这些噪声。为了能够使得图像的表示更适合分类任务,我们可以最大化表示与图像的局部块之间的平均互信息,这样有利于表示包含图像块之间共享的信息。


下图展示了local MI的框架:


image.png

                                   local MI

image.png

  • 算法


Local MI的算法为:


image.png


  1. 将表示与先验分布匹配


image.png

GAN的相关内容:


生成对抗网络-基本概念|深度学习(李宏毅)(二十二)


生成对抗网络-理论部分|深度学习(李宏毅)(二十三)


  1. Deep InfoMax的目标函数


Global MI、Local MI以及先验匹配的目标函数可以结合在一起,那么Deep InfoMax最终的完整目标函数就是:


image.png


三、 实验


本文实验在CIFAR10和CIFAR100、Tiny ImageNet、STL-10以及CelebA等数据集上进行。以下为部分实验结果:


image.png

                                                        实验


image.png

                                                    实验


image.png

                                                             实验


image.png

                                                        实验


image.png

                                                          实验


参考资料


Learning Deep Representations by Mutual Information Estimation and Maximization

对 Deep InfoMax(DIM)的理解


Deep InfoMax

相关文章
|
10月前
|
机器学习/深度学习 算法 Oracle
ICLR 2024:近似最优的最大损失函数量子优化算法
【2月更文挑战第27天】ICLR 2024:近似最优的最大损失函数量子优化算法
193 3
ICLR 2024:近似最优的最大损失函数量子优化算法
|
4月前
|
机器学习/深度学习 安全 算法
Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情
近日,蒙特利尔大学Yoshua Bengio团队发表论文,探讨了强化学习中智能体奖励与设计者效用差异导致的状态分布问题,提出“不要做我可能不会做的事情”策略,通过避免采取受信任政策中可能不采取的行动,有效改善了状态分布,但该策略需依赖受信任政策且可能增加计算成本。
44 5
|
5月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
454 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
8月前
|
机器学习/深度学习 算法 前端开发
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
|
机器学习/深度学习 算法 安全
基于时态差分法的强化学习:Sarsa和Q-learning
时态差分法(Temporal Difference, TD)是一类在强化学习中广泛应用的算法,用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法,用于解决马尔可夫决策过程(Markov Decision Process, MDP)中的强化学习问题。
303 1
|
机器学习/深度学习 算法 决策智能
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
【ICLR2020】通过强化学习和稀疏奖励进行模仿学习
232 0
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习05】 交叉熵损失函数
不同的信息,含有不同的信息量,假设下列对阵表中阿根廷的夺冠概率是1/8,A同学告诉我阿根廷夺冠了,那么这个信息量就很大了(因为它包括了阿根廷进了四强,决赛);B同学告诉我阿根廷进决赛了,那么这个信息量就较小。
151 0
|
机器学习/深度学习 传感器 算法
【FNN预测】基于粒子群算法结合引力搜索算法优化前向反馈神经网络FNN实现数据回归预测附matlab代码
【FNN预测】基于粒子群算法结合引力搜索算法优化前向反馈神经网络FNN实现数据回归预测附matlab代码
|
机器学习/深度学习 算法 数据挖掘
深度学习相关概念:交叉熵损失
 我在学习深度学习的过程中,发现交叉熵损失在分类问题里出现的非常的频繁,但是对于交叉熵损失这个概念有非常的模糊,好像明白又好像不明白,因此对交叉熵损失进行了学习。
208 0
|
机器学习/深度学习 算法
深度学习相关概念:动量法与自适应梯度
在梯度下降的每一步中,我们都用到了所有的训练样本,我们需要进行求和运算,在梯度下降中,在计算微积随机梯度下降(SGD)
198 0