使用PyTorch构建神经网络(详细步骤讲解+注释版) 03 模型评价与准确率提升

简介: 使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。

上一节我们已经成功训练了一个神经网络模型

使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练

本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。


1 使用模型预测数据


这里我们使用mnist的训练集


mnist_test = MnistDataset('你的mnist_test.csv地址')


随便传入一行数据,这里我们使用第10行数据,使用前面定义的plot_image方法看一下数据有没有问题,可以看到这幅图是一个手写的0。

index = 9  # 用第10幅图像试一下
mnist_test.plot_image(index)


接下来使用forward方法调用训练后的神经网络

output_10 = C.forward(mnist_test[index][1])

1

此时我们就获得了一个张量形式的输出,为了将这个输出可视化出来,我们可以先将其解析成一个numpy数组,再转换成我们熟悉的dateframe格式,这时这组数据就可以被可视化了。


output_10_pd = pandas.DataFrame(output_10.detach().numpy())
output_10_pd.plot(kind='bar', ylim=(0,1))
plt.show()
1


可以看到,尽管其他的输出节点并不是非常的接近0,但模型对这组数据还是得出了正确的预测结果。






9f2bc99a572140dfa29ede3dac953def.png

2 模型效果评价

在不调包的情况下,我们可以简单的统计以下分类的正确率。


score = 0
items = 0
for label, image_data_tensor, target_tensor in mnist_dataset:
    answer = C.forward(image_data_tensor).detach().numpy()
    if answer.argmax() == label:
        score += 1
    items += 1
print('一共有{}个样本'.format(items))
print('预测正确{}个'.format(score))
print('准确率是{:.2f}%'.format((score/items)*100))
1


其中argmax是判断数组中最大值所对应的索引,也就是判断神经网络预测的结果是什么。当预测结果正确时,得分+1。

1926c15137704a0a8ad68c9e9bed521e.png

在仅仅使用三层的最简单的神经网络的情况下,可以看出依然是一个不错的结果。


3 模型效果提升

提升模型效果的方法有很多,比如增加层数,优化损失函数,优化激活函数,优化学习方法等等。

3.1 优化损失函数

在之前的定义中,我们使用的损失函数是MSE,这是一个最常用的损失函数(大概没有之一)。但对分类问题,我们还要其他可选的方法。(无论是回归还是分类,都很难说最佳的方法是什么,需要结合数据类型以及我们建模的目的来确定)在这里我们可以尝试使用BCELoss函数来代替MSELoss函数。

BCELoss(二值交叉熵损失函数)的计算原理是在二元分类任务中使用的。它的计算方式是将真实标签 y yy 与预测标签 y ^ ŷ y^  的交叉熵作为损失函数。

image.png

其中,y yy 是真实标签,y ^ ŷ y^  是预测标签的概率。对于每一个样本,我们都会得到一个 B C E L o s s BCELossBCELoss 值,最后再将所有样本的 B C E L o s s BCELossBCELoss 值取平均值作为最终的损失值。这个损失函数的值越小,模型的预测结果就越准确。


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建损失函数
        self.loss_function = nn.BCELoss()



大家可以自行尝试修改后对模型预测准确性的影响。同时,还有一些其他常见的损失函数,比如:nn.CrossEntropyLoss: 交叉熵损失函数, 常用于分类问题;nn.NLLLoss: 对数似然损失函数, 常用于自然语言处理中的序列标注问题;nn.L1Loss: L1 范数损失函数, 常用于稀疏性正则化等等。


3.2 激活函数

之前我们使用的是最常见的Sigmoid函数,其计算方法为:

image.png


f59f9e45d93e4c8ba281dad503cbe6d1.png

但Sigmoid也有一些局限性,首先是不能处理好多分类问题(前面我们是把多分类问题变成了10个二分类问题来求解);其次是对样本不平衡问题也不太适用(好在我们这个数据集是样本均衡的);最后Sigmoid存在饱和区间,也就是在非常大和非常小的区域内,函数的梯度基本为零,这就使训练变得慢了。


另一种常用的损失函数是Leaky ReLU(Rectified linear unit)。

Leaky ReLU是一种非常流行的激活函数,它在 ReLU 的基础上进行了扩展,用于解决 ReLU 在训练中所面临的"dying ReLU"问题。


ReLU 函数只保留正数部分,对于负数部分直接归零。这样做的好处是可以有效地防止梯度消失,使得神经网络的训练变得更快。但是,如果一个神经元的输入总是小于零,那么它的权重就永远不会更新,这个神经元就被称为"dead ReLU"。这种情况可能会导致整个神经网络的性能降低。

Leaky ReLU 解决了这个问题,它在负数部分也允许一定的输出,这样即使输入是负数,权重也有机会得到更新。


Leaky ReLU的计算公式为:


image.png


其中 a aa 为常数, 一般取 0.01 0.010.01 或者 0.1 0.10.1.





7d05df35ef514704ad836d7e6d9ee630.png

同样如果希望在模型中使用这个损失函数,可以对代码做出简单的修改。

class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 定义网格结构
        self.model = nn.Sequential(
            nn.Linear(784, 200),
            nn.LeakyReLU(),
            nn.Linear(200, 10),
            nn.LeakyReLU()


3.3 权重更新方法优化

在模型中我们使用的是SGD(Stochastic Gradient Descent)权重更新方法。但这一方法容易让模型陷入局部最优点,也就是梯度为零的极值点而不是最值点。





b30f453b28cd4260a889a4a995f7b178.png

为了解决这一问题,可以尝试使用Adam方法。Adam(Adaptive Moment Estimation)是一种流行的用于深度学习的优化器。它的工作原理是在梯度下降的基础上引入了动量,并且对每个参数都维护了两个变量:指数加权移动平均值和指数加权移动平均方差。这样做的好处是可以在一定程度上缓解梯度消失或爆炸的问题,并且能够自动调整学习率,使其适应不同的参数。


如果希望详细了解这部分内容,为大家提供Adam优化器的更新公式,如不需要直接跳转到后续内容即可:



image.pngimage.pngimage.png



t tt 表示时间步

g t 表示当前时间步损失函数的梯度

m t  表示当前时间步的动量

v t   表示当前时间步的RMSProp算法中的平方梯度积累

m t 表示当前时间步的校正后的动量

v t 表示当前时间步的校正后的平方梯度积累

α  表示学习率

β 1   和 β 2 是两个超参数,通常取值为 0.9 0.90.9 和 0.999 0.9990.999

ϵ 是一个很小的常数,通常取10^{-8}用于给平方根加一个偏移量,以防止分母为 0 00 的情况发生在实际使用中,通常需要为每个参数 θ \thetaθ 分别维护一个 m t m_tm

t和 v t v_tv t然后分别计算每个参数的更新值





a6f2521911354980b3aaf4779ccf4584.png


在模型中如需使用这一方法,需要修改对应位置的代码:


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建优化器
        self.optimiser = torch.optim.Adam(self.parameters())


对于完整的经典代码与完整的修改后优化代码,均可评论区留言获取或者我上传的资源中进行下载。完整代码下载链接


相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
492 56
|
8天前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
|
23天前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
|
16天前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
4月前
|
机器学习/深度学习 算法 PyTorch
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。
151 16
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
|
4月前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
4月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
4月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。

热门文章

最新文章

推荐镜像

更多