【Pytorch神经网络理论篇】 09 神经网络模块中的损失函数

简介: 根据损失值,使用链式反向求导的方法,依次计算出模型中每个参数/权重的梯度

同学你好!本文章于2021年末编写,获得广泛的好评!

故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,

Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~


7942cf047b5e42f583ba8e9142f0dc0b.png


1 训练模型的步骤与方法


  • 将样本书记输入到模型中计算出正向的结果


  • 计算模型结果与样本目标数值之间的差值(也称为损失值loss)


  • 根据损失值,使用链式反向求导的方法,依次计算出模型中每个参数/权重的梯度


  • 使用优化器中的策略对模型中的参数进行更新


2 神经网络模块中的损失函数


2.1 损失函数定义


损失函数主要用来计算“输出值”与“输入值”之间的差距,即误差,反向传播中依靠损失函数找到最优的权重。


2.2 L1损失函数/最小绝对值偏差(LAD)/最小绝对值误差(LAE)


L1损失函数用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。


20191128165805400.png


2.2.1 代码实现==>以类的形式进行封装,需要对其实例化后再使用


import torch
### pre:模型的输出值
### label:模型的目标值
loss = torch.nn.L1Loss()[pre,label]


2.3 L2损失函数


L2损失函数用于最小化误差,该误差是真实值和预测值之间所有平方差的总和


20191128170242929.png


2.4 均值平方差损失(MSE)


均值平方差损失(MSE)主要针对的是回归问题,主要表达预测值域真实值之间的差异


2.4.1 MSE的公式表述


20190610114836500.png


这里的n表示n个样本。ylabel与ypred的取值范围一般为0-1。


2.4.2 注释


  • MSE的值越小,表明模型越好


  • 在神经网络的计算中,预测值与真实值要控制在相同的数据分布中


  • 假设预测值输入Sigmoid激活函数后其取值范围为0到1之间,则真实值的取值范围也应该取到0到1之间


2.4.3 代码实现==>以类的形式进行封装,需要对其实例化后再使用


import torch
### pre:模型的输出值
### label:模型的目标值
loss = torch.nn.MSELoss()(pre,label)


2.5 交叉熵损失函数(Cross Entropy)


2.5.1 交叉熵损失函数简介


交叉熵损失函数可以用来学习模型分布与训练分布之间的差异,一般用作分类问题,数学含义为预测输入样本属于某一类别的概率。


2.5.2 公式介绍


3b4c4f99b812433fbbdd72209fe29735.png


y^为真实分类y的概率值


2.5.3 代码实现==>以类的形式进行封装,需要对其实例化后再使用


import torch
### pre:模型的输出值
### label:模型的目标值
loss = torch.nn.CrossEntropyLoss()(pre,label)


2.5.4 图像理解


接下来,我们从图形的角度,分析交叉熵函数,加深大家的理解。首先,还是写出单个样本的交叉熵损失函数:



b6849f774b434a9dbe7565f24d18f1bb.png


我们知道,当 y = 1 时:


c095711bce284abf9d5b7272a77d5525.png


这时候,L 与预测输出的关系如下图所示:


20180619154552746.png


看了 L 的图形,简单明了!横坐标是预测输出,纵坐标是交叉熵损失函数 L。显然,预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。因此,函数的变化趋势完全符合实际需要的情况。


当 y = 0 时:


a2224d9695754ec69dab933194854752.png


这时候,L 与预测输出的关系如下图所示:


20180619154646701.png


同样,预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。函数的变化趋势也完全符合实际需要的情况。


从上面两种图,可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1,L 都表征了预测输出与 y 的差距。


从图形中我们可以发现:预测输出与 y 差得越多,L 的值越大,也就是说对当前模型的 “ 惩罚 ” 越大,而且是非线性增大,是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。


2.6 其他损失函数


2.6.1 SmoothL1Loss


SmoothL1Loss:平滑版的L1损失函数。此损失函数对于异常点的敏感性不如MSE-Loss。在某些情况下(如Fast R-CNN模型中),它可以防止梯度“爆炸”。这个损失函数也称为Huber loss。


2.6.2 NLLLoss


NLLLoss:负对数似然损失函数,在分类任务中经常使用。


2.6.3 NLLLoss22d


NLLLoss22d:计算图片的负对数似然损失函数,即对每个像素计算NLLLoss。


2.6.4 KLDivLoss


KLDivLoss:计算KL散度损失函数。


2.6.5 BCELoss


BCELoss:计算真实标签与预测值之间的二进制交叉熵。


2.6.6 BCEWithLogitsLoss


BCEWithLogitsLoss:带有Sigmoid激活函数层的BCELoss,即计算target与Sigmoid(output)之间的二进制交叉熵。


2.6.7 MarginRankingLoss


MarginRankingLoss:按照一个特定的方法计算损失。计算给定输入x、x(一维张量)和对应的标y(一维张量,取值为-1或1)之间的损失值。如果y=1,那么第一个输入的值应该大于第二个输入的值;如果y=-1,则相反。


2.6.8 HingeEmbeddingLoss


HingeEmbeddingLoss:用来测量两个输入是否相似,使用L1距离。计算给定一个输入x(二维张量)和对应的标签y(一维张量,取值为-1或1)之间的损失值。


2.6.9 MultiLabelMarginLoss


MultiLabelMarginLoss:计算多标签分类的基于间隔的损失函数(hinge loss)。计算给定一个输入x(二维张量)和对应的标签y(二维张量)之间的损失值。其中,y表示最小批次中样本类别的索引。


2.6.10 SoftMarginLoss


SoftMarginLoss:用来优化二分类的逻辑损失。计算给定一个输入x(二维张量)和对应的标签y(一维张量,取值为-1或1)之间的损失值。


2.6.11 MultiLabelSoftMarginLoss


MultiLabelSoftMarginLoss:基于输入x(二维张量)和目标y(二维张量)的最大交叉熵,优化多标签分类(one-versus-al)的损失。


2.6.12 CosineEmbeddingLoss


CosineEmbeddingLoss:使用余弦距离测量两个输入是否相似,一般用于学习非线性embedding或者半监督学习。


2.6.13 MultiMarginLoss


MultiMarginLoss:用来计算多分类任务的hinge loss。输入是x(二维张量)和y(一维张量)。其中y代表类别的索引。


2.7 汇总


用输入标签数据的类型来选取损失函数


如果蝓入是无界的实数值,那么损失函数使用平方差


如果输入标签是位矢量(分类标识),那么使用交叉熵会更适合。

目录
相关文章
|
机器学习/深度学习 JavaScript PyTorch
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
生成对抗网络(GAN)的训练效果高度依赖于损失函数的选择。本文介绍了经典GAN损失函数理论,并用PyTorch实现多种变体,包括原始GAN、LS-GAN、WGAN及WGAN-GP等。通过分析其原理与优劣,如LS-GAN提升训练稳定性、WGAN-GP改善图像质量,展示了不同场景下损失函数的设计思路。代码实现覆盖生成器与判别器的核心逻辑,为实际应用提供了重要参考。未来可探索组合优化与自适应设计以提升性能。
1214 7
9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体
|
8月前
|
边缘计算 人工智能 PyTorch
130_知识蒸馏技术:温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现
随着大型语言模型(LLM)的规模不断增长,部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例,其671B参数的规模即使经过INT4量化后,仍需要至少6张高端GPU才能运行,这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在显著降低模型复杂度的同时保留核心性能,成为解决这一问题的关键技术之一。
711 6
|
9月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
257 1
|
9月前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
403 0
|
机器学习/深度学习 算法 PyTorch
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。
514 16
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。

推荐镜像

更多