使用PyTorch构建神经网络(详细步骤讲解+注释版) 03 模型评价与准确率提升

简介: 使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。

上一节我们已经成功训练了一个神经网络模型

使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练

本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。


1 使用模型预测数据


这里我们使用mnist的训练集


mnist_test = MnistDataset('你的mnist_test.csv地址')


随便传入一行数据,这里我们使用第10行数据,使用前面定义的plot_image方法看一下数据有没有问题,可以看到这幅图是一个手写的0。

index = 9  # 用第10幅图像试一下
mnist_test.plot_image(index)


接下来使用forward方法调用训练后的神经网络

output_10 = C.forward(mnist_test[index][1])

1

此时我们就获得了一个张量形式的输出,为了将这个输出可视化出来,我们可以先将其解析成一个numpy数组,再转换成我们熟悉的dateframe格式,这时这组数据就可以被可视化了。


output_10_pd = pandas.DataFrame(output_10.detach().numpy())
output_10_pd.plot(kind='bar', ylim=(0,1))
plt.show()
1


可以看到,尽管其他的输出节点并不是非常的接近0,但模型对这组数据还是得出了正确的预测结果。






9f2bc99a572140dfa29ede3dac953def.png

2 模型效果评价

在不调包的情况下,我们可以简单的统计以下分类的正确率。


score = 0
items = 0
for label, image_data_tensor, target_tensor in mnist_dataset:
    answer = C.forward(image_data_tensor).detach().numpy()
    if answer.argmax() == label:
        score += 1
    items += 1
print('一共有{}个样本'.format(items))
print('预测正确{}个'.format(score))
print('准确率是{:.2f}%'.format((score/items)*100))
1


其中argmax是判断数组中最大值所对应的索引,也就是判断神经网络预测的结果是什么。当预测结果正确时,得分+1。

1926c15137704a0a8ad68c9e9bed521e.png

在仅仅使用三层的最简单的神经网络的情况下,可以看出依然是一个不错的结果。


3 模型效果提升

提升模型效果的方法有很多,比如增加层数,优化损失函数,优化激活函数,优化学习方法等等。

3.1 优化损失函数

在之前的定义中,我们使用的损失函数是MSE,这是一个最常用的损失函数(大概没有之一)。但对分类问题,我们还要其他可选的方法。(无论是回归还是分类,都很难说最佳的方法是什么,需要结合数据类型以及我们建模的目的来确定)在这里我们可以尝试使用BCELoss函数来代替MSELoss函数。

BCELoss(二值交叉熵损失函数)的计算原理是在二元分类任务中使用的。它的计算方式是将真实标签 y yy 与预测标签 y ^ ŷ y^  的交叉熵作为损失函数。

image.png

其中,y yy 是真实标签,y ^ ŷ y^  是预测标签的概率。对于每一个样本,我们都会得到一个 B C E L o s s BCELossBCELoss 值,最后再将所有样本的 B C E L o s s BCELossBCELoss 值取平均值作为最终的损失值。这个损失函数的值越小,模型的预测结果就越准确。


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建损失函数
        self.loss_function = nn.BCELoss()



大家可以自行尝试修改后对模型预测准确性的影响。同时,还有一些其他常见的损失函数,比如:nn.CrossEntropyLoss: 交叉熵损失函数, 常用于分类问题;nn.NLLLoss: 对数似然损失函数, 常用于自然语言处理中的序列标注问题;nn.L1Loss: L1 范数损失函数, 常用于稀疏性正则化等等。


3.2 激活函数

之前我们使用的是最常见的Sigmoid函数,其计算方法为:

image.png


f59f9e45d93e4c8ba281dad503cbe6d1.png

但Sigmoid也有一些局限性,首先是不能处理好多分类问题(前面我们是把多分类问题变成了10个二分类问题来求解);其次是对样本不平衡问题也不太适用(好在我们这个数据集是样本均衡的);最后Sigmoid存在饱和区间,也就是在非常大和非常小的区域内,函数的梯度基本为零,这就使训练变得慢了。


另一种常用的损失函数是Leaky ReLU(Rectified linear unit)。

Leaky ReLU是一种非常流行的激活函数,它在 ReLU 的基础上进行了扩展,用于解决 ReLU 在训练中所面临的"dying ReLU"问题。


ReLU 函数只保留正数部分,对于负数部分直接归零。这样做的好处是可以有效地防止梯度消失,使得神经网络的训练变得更快。但是,如果一个神经元的输入总是小于零,那么它的权重就永远不会更新,这个神经元就被称为"dead ReLU"。这种情况可能会导致整个神经网络的性能降低。

Leaky ReLU 解决了这个问题,它在负数部分也允许一定的输出,这样即使输入是负数,权重也有机会得到更新。


Leaky ReLU的计算公式为:


image.png


其中 a aa 为常数, 一般取 0.01 0.010.01 或者 0.1 0.10.1.





7d05df35ef514704ad836d7e6d9ee630.png

同样如果希望在模型中使用这个损失函数,可以对代码做出简单的修改。

class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 定义网格结构
        self.model = nn.Sequential(
            nn.Linear(784, 200),
            nn.LeakyReLU(),
            nn.Linear(200, 10),
            nn.LeakyReLU()


3.3 权重更新方法优化

在模型中我们使用的是SGD(Stochastic Gradient Descent)权重更新方法。但这一方法容易让模型陷入局部最优点,也就是梯度为零的极值点而不是最值点。





b30f453b28cd4260a889a4a995f7b178.png

为了解决这一问题,可以尝试使用Adam方法。Adam(Adaptive Moment Estimation)是一种流行的用于深度学习的优化器。它的工作原理是在梯度下降的基础上引入了动量,并且对每个参数都维护了两个变量:指数加权移动平均值和指数加权移动平均方差。这样做的好处是可以在一定程度上缓解梯度消失或爆炸的问题,并且能够自动调整学习率,使其适应不同的参数。


如果希望详细了解这部分内容,为大家提供Adam优化器的更新公式,如不需要直接跳转到后续内容即可:



image.pngimage.pngimage.png



t tt 表示时间步

g t 表示当前时间步损失函数的梯度

m t  表示当前时间步的动量

v t   表示当前时间步的RMSProp算法中的平方梯度积累

m t 表示当前时间步的校正后的动量

v t 表示当前时间步的校正后的平方梯度积累

α  表示学习率

β 1   和 β 2 是两个超参数,通常取值为 0.9 0.90.9 和 0.999 0.9990.999

ϵ 是一个很小的常数,通常取10^{-8}用于给平方根加一个偏移量,以防止分母为 0 00 的情况发生在实际使用中,通常需要为每个参数 θ \thetaθ 分别维护一个 m t m_tm

t和 v t v_tv t然后分别计算每个参数的更新值





a6f2521911354980b3aaf4779ccf4584.png


在模型中如需使用这一方法,需要修改对应位置的代码:


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建优化器
        self.optimiser = torch.optim.Adam(self.parameters())


对于完整的经典代码与完整的修改后优化代码,均可评论区留言获取或者我上传的资源中进行下载。完整代码下载链接


相关文章
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
这篇文章介绍了如何使用PyTorch框架,结合CIFAR-10数据集,通过定义神经网络、损失函数和优化器,进行模型的训练和测试。
95 2
目标检测实战(一):CIFAR10结合神经网络加载、训练、测试完整步骤
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于BP神经网络的苦瓜生长含水量预测模型matlab仿真
本项目展示了基于BP神经网络的苦瓜生长含水量预测模型,通过温度(T)、风速(v)、模型厚度(h)等输入特征,预测苦瓜的含水量。采用Matlab2022a开发,核心代码附带中文注释及操作视频。模型利用BP神经网络的非线性映射能力,对试验数据进行训练,实现对未知样本含水量变化规律的预测,为干燥过程的理论研究提供支持。
|
6天前
|
并行计算 监控 搜索推荐
使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程
当处理大规模图数据时,复杂性难以避免。PyTorch-BigGraph (PBG) 是一款专为此设计的工具,能够高效处理数十亿节点和边的图数据。PBG通过多GPU或节点无缝扩展,利用高效的分区技术,生成准确的嵌入表示,适用于社交网络、推荐系统和知识图谱等领域。本文详细介绍PBG的设置、训练和优化方法,涵盖环境配置、数据准备、模型训练、性能优化和实际应用案例,帮助读者高效处理大规模图数据。
32 5
|
11天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
33 3
|
23天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
67 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
108 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
1月前
|
机器学习/深度学习 编解码 算法
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
39 0
|
2月前
|
机器学习/深度学习 算法 搜索推荐
图神经网络综述:模型与应用
图神经网络综述:模型与应用
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器
|
2月前
|
机器学习/深度学习
小土堆-pytorch-神经网络-损失函数与反向传播_笔记
在使用损失函数时,关键在于匹配输入和输出形状。例如,在L1Loss中,输入形状中的N代表批量大小。以下是具体示例:对于相同形状的输入和目标张量,L1Loss默认计算差值并求平均;此外,均方误差(MSE)也是常用损失函数。实战中,损失函数用于计算模型输出与真实标签间的差距,并通过反向传播更新模型参数。

热门文章

最新文章