使用PyTorch构建神经网络(详细步骤讲解+注释版) 03 模型评价与准确率提升

简介: 使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。

上一节我们已经成功训练了一个神经网络模型

使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练

本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。


1 使用模型预测数据


这里我们使用mnist的训练集


mnist_test = MnistDataset('你的mnist_test.csv地址')


随便传入一行数据,这里我们使用第10行数据,使用前面定义的plot_image方法看一下数据有没有问题,可以看到这幅图是一个手写的0。

index = 9  # 用第10幅图像试一下
mnist_test.plot_image(index)


接下来使用forward方法调用训练后的神经网络

output_10 = C.forward(mnist_test[index][1])

1

此时我们就获得了一个张量形式的输出,为了将这个输出可视化出来,我们可以先将其解析成一个numpy数组,再转换成我们熟悉的dateframe格式,这时这组数据就可以被可视化了。


output_10_pd = pandas.DataFrame(output_10.detach().numpy())
output_10_pd.plot(kind='bar', ylim=(0,1))
plt.show()
1


可以看到,尽管其他的输出节点并不是非常的接近0,但模型对这组数据还是得出了正确的预测结果。






9f2bc99a572140dfa29ede3dac953def.png

2 模型效果评价

在不调包的情况下,我们可以简单的统计以下分类的正确率。


score = 0
items = 0
for label, image_data_tensor, target_tensor in mnist_dataset:
    answer = C.forward(image_data_tensor).detach().numpy()
    if answer.argmax() == label:
        score += 1
    items += 1
print('一共有{}个样本'.format(items))
print('预测正确{}个'.format(score))
print('准确率是{:.2f}%'.format((score/items)*100))
1


其中argmax是判断数组中最大值所对应的索引,也就是判断神经网络预测的结果是什么。当预测结果正确时,得分+1。

1926c15137704a0a8ad68c9e9bed521e.png

在仅仅使用三层的最简单的神经网络的情况下,可以看出依然是一个不错的结果。


3 模型效果提升

提升模型效果的方法有很多,比如增加层数,优化损失函数,优化激活函数,优化学习方法等等。

3.1 优化损失函数

在之前的定义中,我们使用的损失函数是MSE,这是一个最常用的损失函数(大概没有之一)。但对分类问题,我们还要其他可选的方法。(无论是回归还是分类,都很难说最佳的方法是什么,需要结合数据类型以及我们建模的目的来确定)在这里我们可以尝试使用BCELoss函数来代替MSELoss函数。

BCELoss(二值交叉熵损失函数)的计算原理是在二元分类任务中使用的。它的计算方式是将真实标签 y yy 与预测标签 y ^ ŷ y^  的交叉熵作为损失函数。

image.png

其中,y yy 是真实标签,y ^ ŷ y^  是预测标签的概率。对于每一个样本,我们都会得到一个 B C E L o s s BCELossBCELoss 值,最后再将所有样本的 B C E L o s s BCELossBCELoss 值取平均值作为最终的损失值。这个损失函数的值越小,模型的预测结果就越准确。


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建损失函数
        self.loss_function = nn.BCELoss()



大家可以自行尝试修改后对模型预测准确性的影响。同时,还有一些其他常见的损失函数,比如:nn.CrossEntropyLoss: 交叉熵损失函数, 常用于分类问题;nn.NLLLoss: 对数似然损失函数, 常用于自然语言处理中的序列标注问题;nn.L1Loss: L1 范数损失函数, 常用于稀疏性正则化等等。


3.2 激活函数

之前我们使用的是最常见的Sigmoid函数,其计算方法为:

image.png


f59f9e45d93e4c8ba281dad503cbe6d1.png

但Sigmoid也有一些局限性,首先是不能处理好多分类问题(前面我们是把多分类问题变成了10个二分类问题来求解);其次是对样本不平衡问题也不太适用(好在我们这个数据集是样本均衡的);最后Sigmoid存在饱和区间,也就是在非常大和非常小的区域内,函数的梯度基本为零,这就使训练变得慢了。


另一种常用的损失函数是Leaky ReLU(Rectified linear unit)。

Leaky ReLU是一种非常流行的激活函数,它在 ReLU 的基础上进行了扩展,用于解决 ReLU 在训练中所面临的"dying ReLU"问题。


ReLU 函数只保留正数部分,对于负数部分直接归零。这样做的好处是可以有效地防止梯度消失,使得神经网络的训练变得更快。但是,如果一个神经元的输入总是小于零,那么它的权重就永远不会更新,这个神经元就被称为"dead ReLU"。这种情况可能会导致整个神经网络的性能降低。

Leaky ReLU 解决了这个问题,它在负数部分也允许一定的输出,这样即使输入是负数,权重也有机会得到更新。


Leaky ReLU的计算公式为:


image.png


其中 a aa 为常数, 一般取 0.01 0.010.01 或者 0.1 0.10.1.





7d05df35ef514704ad836d7e6d9ee630.png

同样如果希望在模型中使用这个损失函数,可以对代码做出简单的修改。

class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 定义网格结构
        self.model = nn.Sequential(
            nn.Linear(784, 200),
            nn.LeakyReLU(),
            nn.Linear(200, 10),
            nn.LeakyReLU()


3.3 权重更新方法优化

在模型中我们使用的是SGD(Stochastic Gradient Descent)权重更新方法。但这一方法容易让模型陷入局部最优点,也就是梯度为零的极值点而不是最值点。





b30f453b28cd4260a889a4a995f7b178.png

为了解决这一问题,可以尝试使用Adam方法。Adam(Adaptive Moment Estimation)是一种流行的用于深度学习的优化器。它的工作原理是在梯度下降的基础上引入了动量,并且对每个参数都维护了两个变量:指数加权移动平均值和指数加权移动平均方差。这样做的好处是可以在一定程度上缓解梯度消失或爆炸的问题,并且能够自动调整学习率,使其适应不同的参数。


如果希望详细了解这部分内容,为大家提供Adam优化器的更新公式,如不需要直接跳转到后续内容即可:



image.pngimage.pngimage.png



t tt 表示时间步

g t 表示当前时间步损失函数的梯度

m t  表示当前时间步的动量

v t   表示当前时间步的RMSProp算法中的平方梯度积累

m t 表示当前时间步的校正后的动量

v t 表示当前时间步的校正后的平方梯度积累

α  表示学习率

β 1   和 β 2 是两个超参数,通常取值为 0.9 0.90.9 和 0.999 0.9990.999

ϵ 是一个很小的常数,通常取10^{-8}用于给平方根加一个偏移量,以防止分母为 0 00 的情况发生在实际使用中,通常需要为每个参数 θ \thetaθ 分别维护一个 m t m_tm

t和 v t v_tv t然后分别计算每个参数的更新值





a6f2521911354980b3aaf4779ccf4584.png


在模型中如需使用这一方法,需要修改对应位置的代码:


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建优化器
        self.optimiser = torch.optim.Adam(self.parameters())


对于完整的经典代码与完整的修改后优化代码,均可评论区留言获取或者我上传的资源中进行下载。完整代码下载链接


相关文章
|
1月前
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
62 11
|
16天前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
16天前
|
人工智能 大数据 网络性能优化
构建超大带宽、超高性能及稳定可观测的全球互联网络
本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。
|
26天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
112 13
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
70 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
1月前
|
云安全 人工智能 安全
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
88 3
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】26.卷积神经网络之AlexNet模型介绍及其Pytorch实现【含完整代码】
【从零开始学习深度学习】26.卷积神经网络之AlexNet模型介绍及其Pytorch实现【含完整代码】
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch代码实现神经网络
这段代码示例展示了如何在PyTorch中构建一个基础的卷积神经网络(CNN)。该网络包括两个卷积层,分别用于提取图像特征,每个卷积层后跟一个池化层以降低空间维度;之后是三个全连接层,用于分类输出。此结构适用于图像识别任务,并可根据具体应用调整参数与层数。