【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

简介: 对抗神经网络(如DIM模型)及图神经网络(如DGI模型)中,使用互信息来作为无监督方式提取特征的方法。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

6c43592437e6481bbee82dfc77983540.png


1 信息熵


熵 (Entropy),信息熵:常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。


1.1 信息熵的性质


  • 单调性,发生概率越高的事件,其携带的信息量越低;


  • 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;


  • 累加性,多随机事件同时发生存在的总不确定性的量度约等于各事件不确定性的量度的和,


  • 假设信息熵的函数是I,计算概率的函数是P,I是关于P的减函数,即I(P1,P2)=I(P1)+I(P2)。


1.1.1 信息熵的公式


香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式:


bf526977b2ff45119b3b7fad339bf7b9.png


其中的 C 为常数,我们将其归一化为 C = 1 C=1C=1 即得到了信息熵公式。目前,信息熵大多都是通过上式进行计算的(式中的Pi是概率函数Pi(Ui)的计算结果,求和符号中的i代表从1到n之间的整数。在实践中对数一般以2为底,约定0log0=0。


1.2 信息熵的计算公式


信息熵属于一个抽象概念,其计算方法没有固定公式。任何符合信息熵特点的公式都可以被用作信息熵的计算。


1.2.1 对数的信息熵


fce28b3d7d6746beb012972721345ee1.png


a49b34a444154506850834e039bf578f.png


1.2.2 单符号二元信源的信息熵


以一个最简单的单符号二元信源为例说明,该信源符号U(上式中的X)仅可以取值为a或b。其中,取a的概率为p,则取b的概率为1-p。该信源的信息熵可以记为H(U)=pI(p)+(1-p)I(1-p),所形成的曲线如图所示。


7daea6691cc24f7f8708873d6b4d22e1.png


在图8-2中,x轴代表符号U取值为a的概率值p,y轴代表符号U的信息熵H(U)。由图8-2可以看出信息熵有如下几个特性。


  • 确定性:当符号U取值为a的概率值p=0和p=1时,U的值是确定的,没有任何变化量,所以信息熵为0。


  • 极值性:当p=0.5时,U的信息熵达到了最大。


  • 对称性:图形在水平方向关于p=0.5对称。


  • 非负性:即收到一个信源符号所获得的信息熵应为正值,H(U)≥0。


1.3 连续信息熵及特性


信源中的变量是从连续数据中取值。连续信源可以有无限个值,信息量是无限大,对其求信息熵已无意义,一般常会以其他的连续信源做参照,相对熵的值进行度量。


1.4 联合熵


联合熵(joint entropy)可将一维随机变量分布推广到多维随机变量分布。两个变量x和Y的联合信息熵H(X,Y)也可以由联合概率函数P(x,y)计算得来:


9dddba0019ae40b896d6897645b25304.png


式中的联合概率函数P(x,y)是指x、y同时满足某一条件的概率。


1.5 条件熵


条件熵(conditional entropy)表示在已知随机变量X的条件下,随机变量Y的不确定性,条件熵H(Y|X)可以由联合橱率函数P(x,y)和条件概率函数P(y|x)计算得来:


a2708a3c0ff24e3d9dae56c820060051.png


其中 P(x,y)=P(y|x)P(x),即x和y的联合概率等于“在x条件下,y出现的概率”乘以“x的边际概率”。


1.5.1 条件熵的另一种计算方式


条件熵H(Y|X)也可以由X和Y的联合信息熵计算而来:


c925f4ed6e9f49149de294e1c12a5eb5.png


可以描述为,条件熵H(Y|X)等于联合熵H(X,Y)减去X的边际熵H(X)。


1.6 交叉熵


交叉熵(cross entropy)在神经网络中常用于计算分类模型的损失。交叉熵表示的是实际输出(概率)与期望输出(概率)之间的距离。交又熵越小,两个概率越接近。


1.6.1 交叉熵数学公式


交叉熵公式假设样本集的概率分布函数为P(x),模型预测结果的概率分布函数为Q(x),则真实样本集的信息熵为(p是函数P(x)的值):


f138c1f1693546bebc11a5fa358e2bb9.png


使用模型预测结果的概率分布Q(x)来表示数据集中样本分类的信息熵,则上述式子可改写为:


b0409d62fb4b471a9b86105935e736c3.png


Q(x)与P(x)的交叉熵。因为分类的概率来自样本集,所以式中的概率部分用Qx)来表示。


1.6.2 交叉熵损失


04a3e0698415407f971e3de571a3c520.png


交叉熵损失表示模型对正向样本预测的交叉熵(求和项中的第一项)与对负向样本预测的交叉熵(求和项中的第二项)之和。正向样本的概率为a,预测负向样本的概率为1-a。


1.7 相对熵/KL散度/信息散度


相对熵,又被称为KL散度或信息散度,用来度量两个概率分布间的非对称性差异。在信息理论中,相对熵等价于两个概率分布的信息熵的差值。


1.7.1 相对熵的公式


设P(x)、Q(x)是离散随机变量集合X中取值x的两个概率分布函数,它们的结果分别为p和q,则p对q的相对熵如下:


add561c120af49a5b5b3030a9c6f08c6.png


由式可知,当P(x)和Q(x)两个概率分布函数相同时,相对熵为0(因为log1=0)并且相对熵具有不对称性,“Ep”代表期望,期望是指每次可能结果的概率乘以结果的总和。


1.7.2 相对熵与交叉熵的关系


将1.7.1中式子中对数部分展开,可以看到相对熵与交叉熵之间的关系:


1479eb8ff5ea40acbf17bd35ec172278.png


由式可以看出p与q的相对熵是由二者的交叉熵去掉p的边际熵得来,相对熵是交叉熵中去掉熵的部分。

在神经网络中,由于训练数据集是固定的,即p的嫡一定,因此最小化交叉熵等价于最小化预测结果与真实分布之间的相对熵(模型的输出分布与真实分布的相对熵越小,表明模型对真实样本拟合效果越好),这也是要用交叉熵作为损失函数的原因。


1.8 JS散度


1.8.1 JS散度出现的原因


KL散度可以表示两个概率分布的差异,但它并不是对称的。在使用KL散度训练神经网络时,会有因顺序不同而造成训川练结果不同的情况。


1.8.2 JS散度


JS散度在KL散度的基础上进行了一次变换,使两个概率分布(p、q)间的差异度量具有对称性:


e56a98b94d58407fa34d97982aa790d6.png


1.8.3 JS散度的特性


与KL散度相比,JS散废更适合在神经网络中应用。它具有以下特性。


  • 对称性:可以衡量两种不同分布之间的差异。


  • 大于或等于0:当两个分布完全重叠时,其JS散度达到最小值0。


  • 有上界:当两个分布差异越来越大时,其JS散度的值会逐渐增大。当两个分布的JS散度足够大时,其值会收敛到一个固定值,KL散度是没有上界的。


  • 在互信息的最大化任务中,常使用JS散度来代替KL散度。


2 互信息


互信息是衡量随机变量之间相互依赖程度的度量,用于度量两个变量间的共享信息量。


2.1 三句话解释互信息


  • 一个随机变量中包含的关于另一个随机变量的信息量,


  • 一个随机变量由于另一个已知的随机变量发生变化而减少的不确定性。


  • 例如,到中午的时候、去吃饭的不确定性,与在任意时间去吃饭的不确定性之差。


2.2 互信息公式


设有两个变量集合X和Y,它们中的个体分别为x、y,它们的联合概率分布函数为P(x,y),边际概率分布函数分别是P(x)、P(y)。互信息是指联合概率分布函数P(x,y)与边际概分布函数P(x),P(y)的相对熵。


d110c4d132624d81ba180e8079f11674.png


2.3 互信息的特点


(1)对称性:由于互信息属于两个变量间的共享信息,因此I(X;Y)=I(Y|X)。

(2)独立变量间互信息为0:如果两个变量独立,则它们之间没有任何共享信息,此时互信息为0。

(3)非负性:共享信息要么有,要么没有。互信息量不会出现负值。


2.4 互信息与条件熵之间关系


015916da4ea8406d8521e8c3e84c866f.png


2.5 互信息与联合熵之间关系


45aef0a321a64f7caa4540387a3ba406.png


2.6 互信息的应用


  • 互信息已被用作机器学习中的特征选择和特征变换的标准。它可表示变量的相关性和冗余性,例如,最小冗余特征选择。它可以确定数据集中两个不同聚类的相似性。


  • 在时间序列分析中,它还可以用于相位同步的检测。


  • 对抗神经网络(如DIM模型)及图神经网络(如DGI模型)中,使用互信息来作为无监督方式提取特征的方法。
目录
相关文章
|
2月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
|
2月前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
129 0
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
6月前
|
机器学习/深度学习 算法 PyTorch
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。
301 16
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
|
9月前
|
机器学习/深度学习 数据可视化 算法
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
神经常微分方程(Neural ODEs)是深度学习领域的创新模型,将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法,涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性,适用于生成模型、时间序列分析等领域。
472 77
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
|
6月前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
6月前
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
6月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
6月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。
|
6月前
|
存储 监控 算法
公司内部网络监控中的二叉搜索树算法:基于 Node.js 的实时设备状态管理
在数字化办公生态系统中,公司内部网络监控已成为企业信息安全管理体系的核心构成要素。随着局域网内终端设备数量呈指数级增长,实现设备状态的实时追踪与异常节点的快速定位,已成为亟待解决的关键技术难题。传统线性数据结构在处理动态更新的设备信息时,存在检索效率低下的固有缺陷;而树形数据结构因其天然的分层特性与高效的检索机制,逐渐成为网络监控领域的研究热点。本文以二叉搜索树(Binary Search Tree, BST)作为研究对象,系统探讨其在公司内部网络监控场景中的应用机制,并基于 Node.js 平台构建一套具备实时更新与快速查询功能的设备状态管理算法框架。
240 3

热门文章

最新文章

推荐镜像

更多