使用PyTorch构建神经网络(详细步骤讲解+注释版) 03 模型评价与准确率提升

简介: 使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。

上一节我们已经成功训练了一个神经网络模型

使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练

本文的使用的部分类方法为前述文章定义所得,如果希望运行完整代码建议同时查看上一篇文章或文末留言发你完整代码。


1 使用模型预测数据


这里我们使用mnist的训练集


mnist_test = MnistDataset('你的mnist_test.csv地址')


随便传入一行数据,这里我们使用第10行数据,使用前面定义的plot_image方法看一下数据有没有问题,可以看到这幅图是一个手写的0。

index = 9  # 用第10幅图像试一下
mnist_test.plot_image(index)


接下来使用forward方法调用训练后的神经网络

output_10 = C.forward(mnist_test[index][1])

1

此时我们就获得了一个张量形式的输出,为了将这个输出可视化出来,我们可以先将其解析成一个numpy数组,再转换成我们熟悉的dateframe格式,这时这组数据就可以被可视化了。


output_10_pd = pandas.DataFrame(output_10.detach().numpy())
output_10_pd.plot(kind='bar', ylim=(0,1))
plt.show()
1


可以看到,尽管其他的输出节点并不是非常的接近0,但模型对这组数据还是得出了正确的预测结果。






9f2bc99a572140dfa29ede3dac953def.png

2 模型效果评价

在不调包的情况下,我们可以简单的统计以下分类的正确率。


score = 0
items = 0
for label, image_data_tensor, target_tensor in mnist_dataset:
    answer = C.forward(image_data_tensor).detach().numpy()
    if answer.argmax() == label:
        score += 1
    items += 1
print('一共有{}个样本'.format(items))
print('预测正确{}个'.format(score))
print('准确率是{:.2f}%'.format((score/items)*100))
1


其中argmax是判断数组中最大值所对应的索引,也就是判断神经网络预测的结果是什么。当预测结果正确时,得分+1。

1926c15137704a0a8ad68c9e9bed521e.png

在仅仅使用三层的最简单的神经网络的情况下,可以看出依然是一个不错的结果。


3 模型效果提升

提升模型效果的方法有很多,比如增加层数,优化损失函数,优化激活函数,优化学习方法等等。

3.1 优化损失函数

在之前的定义中,我们使用的损失函数是MSE,这是一个最常用的损失函数(大概没有之一)。但对分类问题,我们还要其他可选的方法。(无论是回归还是分类,都很难说最佳的方法是什么,需要结合数据类型以及我们建模的目的来确定)在这里我们可以尝试使用BCELoss函数来代替MSELoss函数。

BCELoss(二值交叉熵损失函数)的计算原理是在二元分类任务中使用的。它的计算方式是将真实标签 y yy 与预测标签 y ^ ŷ y^  的交叉熵作为损失函数。

image.png

其中,y yy 是真实标签,y ^ ŷ y^  是预测标签的概率。对于每一个样本,我们都会得到一个 B C E L o s s BCELossBCELoss 值,最后再将所有样本的 B C E L o s s BCELossBCELoss 值取平均值作为最终的损失值。这个损失函数的值越小,模型的预测结果就越准确。


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建损失函数
        self.loss_function = nn.BCELoss()



大家可以自行尝试修改后对模型预测准确性的影响。同时,还有一些其他常见的损失函数,比如:nn.CrossEntropyLoss: 交叉熵损失函数, 常用于分类问题;nn.NLLLoss: 对数似然损失函数, 常用于自然语言处理中的序列标注问题;nn.L1Loss: L1 范数损失函数, 常用于稀疏性正则化等等。


3.2 激活函数

之前我们使用的是最常见的Sigmoid函数,其计算方法为:

image.png


f59f9e45d93e4c8ba281dad503cbe6d1.png

但Sigmoid也有一些局限性,首先是不能处理好多分类问题(前面我们是把多分类问题变成了10个二分类问题来求解);其次是对样本不平衡问题也不太适用(好在我们这个数据集是样本均衡的);最后Sigmoid存在饱和区间,也就是在非常大和非常小的区域内,函数的梯度基本为零,这就使训练变得慢了。


另一种常用的损失函数是Leaky ReLU(Rectified linear unit)。

Leaky ReLU是一种非常流行的激活函数,它在 ReLU 的基础上进行了扩展,用于解决 ReLU 在训练中所面临的"dying ReLU"问题。


ReLU 函数只保留正数部分,对于负数部分直接归零。这样做的好处是可以有效地防止梯度消失,使得神经网络的训练变得更快。但是,如果一个神经元的输入总是小于零,那么它的权重就永远不会更新,这个神经元就被称为"dead ReLU"。这种情况可能会导致整个神经网络的性能降低。

Leaky ReLU 解决了这个问题,它在负数部分也允许一定的输出,这样即使输入是负数,权重也有机会得到更新。


Leaky ReLU的计算公式为:


image.png


其中 a aa 为常数, 一般取 0.01 0.010.01 或者 0.1 0.10.1.





7d05df35ef514704ad836d7e6d9ee630.png

同样如果希望在模型中使用这个损失函数,可以对代码做出简单的修改。

class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 定义网格结构
        self.model = nn.Sequential(
            nn.Linear(784, 200),
            nn.LeakyReLU(),
            nn.Linear(200, 10),
            nn.LeakyReLU()


3.3 权重更新方法优化

在模型中我们使用的是SGD(Stochastic Gradient Descent)权重更新方法。但这一方法容易让模型陷入局部最优点,也就是梯度为零的极值点而不是最值点。





b30f453b28cd4260a889a4a995f7b178.png

为了解决这一问题,可以尝试使用Adam方法。Adam(Adaptive Moment Estimation)是一种流行的用于深度学习的优化器。它的工作原理是在梯度下降的基础上引入了动量,并且对每个参数都维护了两个变量:指数加权移动平均值和指数加权移动平均方差。这样做的好处是可以在一定程度上缓解梯度消失或爆炸的问题,并且能够自动调整学习率,使其适应不同的参数。


如果希望详细了解这部分内容,为大家提供Adam优化器的更新公式,如不需要直接跳转到后续内容即可:



image.pngimage.pngimage.png



t tt 表示时间步

g t 表示当前时间步损失函数的梯度

m t  表示当前时间步的动量

v t   表示当前时间步的RMSProp算法中的平方梯度积累

m t 表示当前时间步的校正后的动量

v t 表示当前时间步的校正后的平方梯度积累

α  表示学习率

β 1   和 β 2 是两个超参数,通常取值为 0.9 0.90.9 和 0.999 0.9990.999

ϵ 是一个很小的常数,通常取10^{-8}用于给平方根加一个偏移量,以防止分母为 0 00 的情况发生在实际使用中,通常需要为每个参数 θ \thetaθ 分别维护一个 m t m_tm

t和 v t v_tv t然后分别计算每个参数的更新值





a6f2521911354980b3aaf4779ccf4584.png


在模型中如需使用这一方法,需要修改对应位置的代码:


class Classifier(nn.Module):
    # 初始化PyTorch父类
    def __init__(self):
        super().__init__()
        # 创建优化器
        self.optimiser = torch.optim.Adam(self.parameters())


对于完整的经典代码与完整的修改后优化代码,均可评论区留言获取或者我上传的资源中进行下载。完整代码下载链接


相关文章
|
1天前
|
监控 安全 网络安全
云计算与网络安全:构建可信赖的云服务体系
【4月更文挑战第26天】 在数字化进程加速的当下,云计算作为支撑企业和个人数据处理的核心架构,其安全性受到前所未有的关注。本文深入探讨了云计算环境中的网络安全和信息保护机制,分析了当前云服务面临的主要安全挑战,并提出了相应的策略和技术解决方案。文中不仅涵盖了云服务的基本概念和分类,还详细论述了包括加密技术、身份验证、访问控制以及入侵检测等在内的多层次安全措施。此外,文章还对如何建立有效的安全治理框架提供了见解,旨在为读者提供一个全面而深入的视角,以理解和应对云计算环境下的网络安全问题。
9 2
|
2天前
|
云安全 安全 网络安全
云端防御战线:构建云计算环境下的网络安全体系
【4月更文挑战第25天】 随着企业数字化转型的加速,云计算以其灵活性、成本效益和可扩展性成为众多组织的首选技术平台。然而,云服务的广泛采用也带来了前所未有的安全挑战,特别是在数据保护、隐私合规以及网络攻击防护等方面。本文将深入探讨云计算环境中的网络安全策略,从云服务模型出发,分析不同服务层次的安全责任划分,并针对网络威胁提出综合性的防御措施。此外,文中还将讨论信息加密、身份验证、入侵检测等关键技术在维护云安全中的作用,以期为读者提供一套全面的云安全解决方案框架。
|
3天前
|
移动开发 Java Android开发
构建高效Android应用:采用Kotlin协程优化网络请求
【4月更文挑战第24天】 在移动开发领域,尤其是对于Android平台而言,网络请求是一个不可或缺的功能。然而,随着用户对应用响应速度和稳定性要求的不断提高,传统的异步处理方式如回调地狱和RxJava已逐渐显示出局限性。本文将探讨如何利用Kotlin协程来简化异步代码,提升网络请求的效率和可读性。我们将深入分析协程的原理,并通过一个实际案例展示如何在Android应用中集成和优化网络请求。
|
8天前
|
存储 安全 网络安全
构建坚固的防线:云计算环境下的网络安全策略
【4月更文挑战第19天】 随着企业纷纷迁移至云平台,云计算已成为现代信息技术架构的核心。然而,数据存储与处理的云端化也带来了前所未有的安全挑战。本文深入探讨了在复杂多变的云环境中,如何实施有效的网络安全措施,确保信息安全和业务连续性。通过分析云服务模型、网络威胁以及加密技术,提出了一系列切实可行的安全策略,旨在帮助组织构建一个既灵活又强大的防御体系。
17 1
|
8天前
|
监控 安全 算法
数字堡垒的构建者:网络安全与信息保护的现代策略
【4月更文挑战第19天】在信息化快速发展的今天,网络安全和信息安全已成为维护社会稳定、保障个人隐私和企业商业秘密的关键。本文将深入探讨网络安全漏洞的成因、加密技术的进展以及提升安全意识的重要性,旨在为读者提供一套综合性的网络防护策略,以应对日益猖獗的网络威胁。
8 1
|
10天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
18 0
|
10天前
|
机器学习/深度学习
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频波动率
19 0
|
11天前
|
机器学习/深度学习 资源调度 数据可视化
使用Python和Keras进行主成分分析、神经网络构建图像重建
使用Python和Keras进行主成分分析、神经网络构建图像重建
13 1
|
2月前
|
机器学习/深度学习 编解码 PyTorch
Pytorch实现手写数字识别 | MNIST数据集(CNN卷积神经网络)
Pytorch实现手写数字识别 | MNIST数据集(CNN卷积神经网络)
|
1月前
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】深入剖析MTCNN(多任务级联卷积神经网络)并使用30行代码实现人脸识别
【PyTorch实战演练】深入剖析MTCNN(多任务级联卷积神经网络)并使用30行代码实现人脸识别
58 2