pytorch实现手写数字识别 | MNIST数据集(全连接神经网络)

简介: pytorch实现手写数字识别 | MNIST数据集(全连接神经网络)


代码

import torch
from torchvision import transforms  # 对图像进行原始的数据处理的工具
from torchvision import datasets  # 获取数据
from torch.utils.data import DataLoader  # 加载数据
import torch.nn.functional as F  # 与全连接层中的relu激活函数 有关
import torch.optim as optim  # 与优化器有关
# prepare dataset
batch_size = 64
# GPU对2的幂次的batch可以发挥更佳的性能,因此设置成16、32、64、128…时往往要比设置为整10、整100的倍数时表现更优
# 在神经网络训练时,常常需要采用批输入数据的方法,为此需要设定每次输入的批数据大小batch_size
transform = transforms.Compose([  # 处理图像
    transforms.ToTensor(),  # Convert the PIL Image to Tensor
    transforms.Normalize((0.1307,), (0.3081,))  # 归一化;0.1307为均值,0.3081为标准差
])
train_dataset = datasets.MNIST(root='./dataset/mnist/', train=True, download=True, transform=transform)  
# download=True表示自动下载MNIST数据集(建议科学上网,不然速度很慢,而且可能下载中断)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='./dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
class Net(torch.nn.Module):  # design model using class
    def __init__(self):
        super(Net, self).__init__()
        self.l1 = torch.nn.Linear(784, 512)
        self.l2 = torch.nn.Linear(512, 256)
        self.l3 = torch.nn.Linear(256, 128)
        self.l4 = torch.nn.Linear(128, 64)
        self.l5 = torch.nn.Linear(64, 10)
    def forward(self, x):
        x = x.view(-1, 784)  # -1其实就是自动获取mini_batch
        # Tensor.view(*shape) → Tensor:Returns a new tensor with the same data as the self tensor but of a different shape.
        x = F.relu(self.l1(x))
        x = F.relu(self.l2(x))
        x = F.relu(self.l3(x))
        x = F.relu(self.l4(x))
        return self.l5(x)  # 最后一层不做激活,不进行非线性变换
model = Net()
# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()  # 构建损失函数
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
# lr (float) – learning rate学习率   ;   momentum (float, optional) – momentum factor (default: 0)动量因子 (默认: 0)
# training cycle forward, backward, update
def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        # 获得一个批次的数据和标签
        inputs, target = data
        optimizer.zero_grad()
        # 获得模型预测结果(64, 10)
        outputs = model(inputs)
        # 交叉熵代价函数outputs(64,10),target(64)
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        if batch_idx % 300 == 299:  # batch_idx最大值为937;937*64=59968 意味着丢弃了部分的样本
            print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            # 注:在python中,通过使用%,实现格式化字符串的目的;%d 有符号整数(十进制)
            running_loss = 0.0
def test():
    correct = 0  # 正确预测的数量
    total = 0  # 总数量
    with torch.no_grad():  # 测试的时候不需要计算梯度(避免产生计算图)
        for data in test_loader:
            images, labels = data
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)  # dim = 1 列是第0个维度,行是第1个维度
            total += labels.size(0)
            correct += (predicted == labels).sum().item()  # 张量之间的比较运算
    print('accuracy on test set: %d %% ' % (100 * correct / total))
if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./dataset/mnist/MNIST\raw\train-images-idx3-ubyte.gz
100.1%
Extracting ./dataset/mnist/MNIST\raw\train-images-idx3-ubyte.gz to ./dataset/mnist/MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./dataset/mnist/MNIST\raw\train-labels-idx1-ubyte.gz
113.5%
Extracting ./dataset/mnist/MNIST\raw\train-labels-idx1-ubyte.gz to ./dataset/mnist/MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./dataset/mnist/MNIST\raw\t10k-images-idx3-ubyte.gz
100.4%
Extracting ./dataset/mnist/MNIST\raw\t10k-images-idx3-ubyte.gz to ./dataset/mnist/MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./dataset/mnist/MNIST\raw\t10k-labels-idx1-ubyte.gz
180.4%
Extracting ./dataset/mnist/MNIST\raw\t10k-labels-idx1-ubyte.gz to ./dataset/mnist/MNIST\raw
Processing...
Done!
[1,   300] loss: 2.146
[1,   600] loss: 0.746
[1,   900] loss: 0.412
accuracy on test set: 89 % 
[2,   300] loss: 0.311
[2,   600] loss: 0.264
[2,   900] loss: 0.231
accuracy on test set: 94 % 
[3,   300] loss: 0.192
[3,   600] loss: 0.166
[3,   900] loss: 0.153
accuracy on test set: 96 % 
[4,   300] loss: 0.132
[4,   600] loss: 0.122
[4,   900] loss: 0.120
accuracy on test set: 96 % 
[5,   300] loss: 0.100
[5,   600] loss: 0.090
[5,   900] loss: 0.098
accuracy on test set: 96 % 
[6,   300] loss: 0.077
[6,   600] loss: 0.078
[6,   900] loss: 0.076
accuracy on test set: 97 % 
[7,   300] loss: 0.061
[7,   600] loss: 0.066
[7,   900] loss: 0.064
accuracy on test set: 97 % 
[8,   300] loss: 0.049
[8,   600] loss: 0.051
[8,   900] loss: 0.055
accuracy on test set: 97 % 
[9,   300] loss: 0.040
[9,   600] loss: 0.045
[9,   900] loss: 0.040
accuracy on test set: 97 % 
[10,   300] loss: 0.033
[10,   600] loss: 0.035
[10,   900] loss: 0.034
accuracy on test set: 97 %

相关说明

Softmax Classifiter 分类器解决多分类问题

1. 关于MNIST数据集

  • MNIST 数据集来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.
  • MNIST 包括6万张28x28的训练样本,1万张测试样本,很多教程都会对它”下手”,几乎成为一个 “典范”,可以说它就是计算机视觉里面的Hello World
  • MNIST 数据集可在 http://yann.lecun.com/exdb/mnist/ 获取, 它包含了四个部分:
  • Training set images: train-images-idx3-ubyte.gz (9.9 MB, 解压后 47 MB, 包含 60,000 个样本)
  • Training set labels: train-labels-idx1-ubyte.gz (29 KB, 解压后 60 KB, 包含 60,000 个标签)
  • Test set images: t10k-images-idx3-ubyte.gz (1.6 MB, 解压后 7.8 MB, 包含 10,000 个样本)
  • Test set labels: t10k-labels-idx1-ubyte.gz (5KB, 解压后 10 KB, 包含 10,000 个标签)

2. 关于二分类与多分类

把每一个类别都当成一个二分类的问题,但是各个分类输出的可能性之间要有相互抑制的关联(比如当为1的可能性足够大的时候,那么其他数字的可能性就会很小)

  • 所以十个分类中所有的输出要求(才能满足离散分布的要求):
  1. 所有的输出都大于0;
  2. 所有的输出之和为1;

3. 关于神经网络处理过程

此问题的对应的神经网络前面的这些层对应的还是使用Sigmod函数,最后输出的这一层不使用Sigmod(使用Sigmod得不到想要的结果)

4. softmax函数

  • 举例(以及softmax 和 NLLLoss 和 CrossEntropyLoss()交叉熵损失 之间的区别):




  • 运算示例:
  • torch.Tensor([0.1,0.2,0.9],…) 表示原始的线性层的输出,还没有经过softmax,还不是概率分布;表示第一个样本是数字2 的“可能性”是0.9,是数字1的“可能性”是0.2,是数字0的“可能性”是0.1;(这里mini-batch 中的batch_size是3,表示三个样本作为一组一起计算)

5. 关于MNIST数据集的处理举例

每一张图片都是28*28的像素,每一个像素值的取值是0255;如果0255映射到0~1的区间,对应到28 * 28的矩阵;

6. 代码流程

7. 关于transforms.ToTensor

为了在pytorch中进行更加高效的图像处理和卷积运算所进行的转换

8. 关于transforms.Normalize

9.代码中transform的对应关系

10. 关于x.view

x.view用于改变张量的形状

输入的样本(N,1,28,28):4阶的张量,每个里面N个样本,每个样本是一维,像素长宽是28 * 28的图像;这里的N可以理解为mini-batch的batch_size的大小;

11. 设计模型

注意最后一层不做激活,直接线性层的输出接到后面的softmax里面

12. batch size设置技巧 谈谈batchsize参数

参考:batch size设置技巧 谈谈batchsize参数

  • batch的size设置的不能太大也不能太小,因此实际工程中最常用的就是mini-batch,一般size设置为几十或者几百。
  • 对于二阶优化算法,减小batch换来的收敛速度提升远不如引入大量噪声导致的性能下降,因此在使用二阶优化算法时,往往要采用大batch哦。此时往往batch设置成几千甚至一两万才能发挥出最佳性能。
  • GPU对2的幂次的batch可以发挥更佳的性能,因此设置成16、32、64、128…时往往要比设置为整10、整100的倍数时表现更优

13. 关于x.view(-1, 784)

举例说明view()的作用:

代码中的inputs:

单独测试了每次inputs的样本的“size”:

最后一次的时候(for循环运行完毕后)测试关于inputs的测试:

14. 关于torch.nn.Linear和relu的举例测试

官网(pytorch1.2.0)对于torch.nn.Linear中的 weight 和 bias 的解释:

相关文章
|
7月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
458 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
4月前
|
机器学习/深度学习 算法 PyTorch
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。
131 16
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
|
4月前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
4月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
4月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。
|
7月前
|
计算机视觉
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
194 12
RT-DETR改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进RT-DETR颈部网络
|
7月前
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
1440 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
6月前
|
安全 网络协议 网络安全
当虚拟机出现网络连接问题时,应该先检查Hyper-V的网卡连接配置
当虚拟机出现网络连接问题时,应首先检查Hyper-V的网卡配置。具体步骤包括:确认虚拟机运行状态、检查虚拟交换机类型和物理网卡连接、确保虚拟机网络适配器正确连接到虚拟交换机,并验证网络配置(IP地址等)。常见问题如虚拟交换机配置错误、网络适配器未连接或防火墙阻止连接,可通过重新配置或调整设置解决。必要时重启虚拟机和宿主机,查看事件日志或联系技术支持以进一步排查问题。

热门文章

最新文章

推荐镜像

更多