使用PyTorch构建神经网络(详细步骤讲解+注释版) 02-数据读取与训练

简介: 熟悉基础数据分析的同学应该更习惯使用Pandas库对数据进行处理,此处为了加深对PyTorch的理解,我们尝试使用PyTorch读取数据。这里面用到的包是torch.utils.data.Dataset。在下面的代码中,分别定义了len方法与getitem方法。这两个方法都是python的内置方法,但是对类并不适用。这里通过重写方法使类也可以调用,并且自定义了getitem方法的输出

前面我们已经建立好了一个神经网络的分类器Class。

使用PyTorch构建神经网络(详细步骤讲解+注释版) 01-建立分类器类

下面进行数据的读取与模型训练

1 使用PyTorch对数据处理

熟悉基础数据分析的同学应该更习惯使用Pandas库对数据进行处理,此处为了加深对PyTorch的理解,我们尝试使用PyTorch读取数据。这里面用到的包是torch.utils.data.Dataset。

在下面的代码中,分别定义了len方法与getitem方法。这两个方法都是python的内置方法,但是对类并不适用。这里通过重写方法使类也可以调用,并且自定义了getitem方法的输出


from torch.utils.data import Dataset
class MnistDataset:
    def __init__(self, csv_file):
        self.data = pandas.read_csv(csv_file)
        pass
    def __len__(self):
        return len(self.data)
    def __getitem__(self, index):
        # 预期输出的张量制作
        label = self.data.iloc[index,0]
        target = torch.zeros(10)
        target[label] = 1.0
        # 图像数据标准化
        image_values = torch.FloatTensor(self.data.iloc[index, 1:].values)/255.0
        return label, image_values, target


len方法起到了返回DataFrame大小的作用。


label:获得了指定数据的第一个数值,也就是这个数据的标签;

target:制作了一个维度为10的张量,标签对应的项是1,其他是0。比如,某个手写数据的标签是2,则这个张量是[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]。

image_values:像素输入的值是0-255,这里对像素数据做了标准化,是值位于0-1之间。

在MnistDataset类中,博主也看到有教程为其添加了绘画的功能,这个功能在实现神经网络的过程中,并不会起到实质性作用,但是可能有助于快速查看数据情况,所以我把代码放到这里,很简单大家自行学习就好。


class MnistDataset:
    def plot_image(self, index):
        arr = self.data.iloc[index, 1:].values.reshape(28, 28)
        plt.title("label=" + str(self.data.iloc[index, 0]))
        plt.imshow(arr, interpolation='none', cmap='Blues')
        plt.show()
1


可以使用这个功能查看数据集:


mnist_dataset = MnistDataset('数据集地址')
mnist_dataset.plot_image(123)
1

2

截至目前,MnistDataset这个类的全部代码为


class MnistDataset:
    def __init__(self, csv_file):
        self.data = pandas.read_csv(csv_file)
        pass
    def __len__(self):
        return len(self.data)
    def __getitem__(self, index):
        # 预期输出的张量制作
        label = self.data.iloc[index, 0]
        target = torch.zeros(10)
        target[label] = 1.0
        # 图像数据标准化
        image_values = torch.FloatTensor(self.data.iloc[index, 1:].values) / 255.0
        return label, image_values, target
def plot_image(self, index):
        arr = self.data.iloc[index, 1:].values.reshape(28, 28)
        plt.title("label=" + str(self.data.iloc[index, 0]))
        plt.imshow(arr, interpolation='none', cmap='Blues')
        plt.show()
        pass


这是目前我们所完成的内容(蓝色部分位于上一篇博客)


2beec639d07c4665bffdd071ed4591cb.png




2 模型训练

首先创建一个分类器类

C = Classifier()


在训练过程中,我们可以只训练一轮,也就是训练集中的数据依次传入模型进行训练,也可以训练多轮,即一个数据集都传入一遍之后,在从头重复传入数据进行训练的这个动作。对于描述训练几轮有一个专有名词epochs,在写代码时通常会以这个单词作为变量名。

接下来我们执行三组循环:


epochs = 3
for i in range(epochs):
    print('training epoch', i+1, 'of', epochs)
    for label, image_data_tensor, target_tensor in mnist_dataset:
        C.train(image_data_tensor, target_tensor)
1


在mnist_dataset能够直接取数是因为我们之前定义了getitem方法。以上就是完整的训练过程。在训练时,每当完成一轮或完成10000组数据都会有相应的print(后者来自train方法)。如果我们还想知道这一过程花费的时间,还可以导入time包进行计算。这一部分的完整代码如下。


start_time =time.perf_counter() # 计时开始
C = Classifier()
epochs = 3
for i in range(epochs):
    print('training epoch', i+1, 'of', epochs)
    for label, image_data_tensor, target_tensor in mnist_dataset:
        C.train(image_data_tensor, target_tensor)
end_time =time.perf_counter()
print('完成3个epochs需要的时间是', end_time-start_time)


f7a4789a5f294aa09616bf936f4f953f.png


一般情况下,使用个人电脑进行计算的话,每轮训练一般不超过10分钟。如果购买了Google Colab等付费在线服务器,这一过程还会更快。


3 训练过程可视化

在训练结束之后,如果希望查看训练次数与误差之间的关系,我们可以在Classifier类中定义一个可视化方法。首先在initial下,初始化一个用于记录损失的列表。


class Classifier(nn.Module):
    def __init__(self):
        # 用于展示训练进程的计数器和列表
        self.counter = 0
        self.progress = []


接着在train方法下,每隔10个训练记录一次损失值,每隔10000个输出一次训练个数(也就是对应上面console截图的输出)。


class Classifier(nn.Module):
    def train(self, inputs, targets):
        # 进程可视化数据
        self.counter += 1
        if self.counter % 10 == 0:
            self.progress.append(loss.item())
            pass
        if self.counter % 10000 == 0:
            print("counter = ", self.counter)
            pass



最后,建立一个绘图的方法,使用matplotlib.pyplot(import as plt)绘制散点图。


class Classifier(nn.Module):
    # 训练进程制图
    def plot_progress(self):
        df = pandas.DataFrame(self.progress, columns=['loss'])
        df.plot(ylim=(0, 1.0), figsize=(16, 8), alpha=0.1, marker='.', grid=True, yticks=(0, 0.25, 0.5))
        plt.show()


这里的一些设置主要是控制绘图细节,比如ylim是坐标轴范围,alpha是透明度,yticks是网格位置等。这一部分如有兴趣也可以对matplotlib.pyplot进行专门学习。

在完善了类的相关方法后,再次进行训练就会自动保存误差数据,训练之后,我们使用:


C.plot_progess()
1

就可以把图绘制出来了。

e9583d1d38f345c8862fdb8f2ca686c3.png





可以看出,随着训练次数的增加,损失下降还是比较明显的。


本系列文章使用不断迭代优化代码的方式进行撰写,以模块不断对代码进行补充方便大家理解。如果希望获取完整代码文件,直接文末留言或者到个人博客的资源区进行下载即可。完整代码下载链接

下一篇文章将会讲解如何评价模型表现与提升模型准确率


相关文章
|
5天前
|
SQL 安全 前端开发
PHP与现代Web开发:构建高效的网络应用
【10月更文挑战第37天】在数字化时代,PHP作为一门强大的服务器端脚本语言,持续影响着Web开发的面貌。本文将深入探讨PHP在现代Web开发中的角色,包括其核心优势、面临的挑战以及如何利用PHP构建高效、安全的网络应用。通过具体代码示例和最佳实践的分享,旨在为开发者提供实用指南,帮助他们在不断变化的技术环境中保持竞争力。
|
23天前
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
9天前
|
监控 安全 网络安全
企业网络安全:构建高效的信息安全管理体系
企业网络安全:构建高效的信息安全管理体系
34 5
|
8天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
27 3
|
17天前
|
数据采集 存储 机器学习/深度学习
构建高效的Python网络爬虫
【10月更文挑战第25天】本文将引导你通过Python编程语言实现一个高效网络爬虫。我们将从基础的爬虫概念出发,逐步讲解如何利用Python强大的库和框架来爬取、解析网页数据,以及存储和管理这些数据。文章旨在为初学者提供一个清晰的爬虫开发路径,同时为有经验的开发者提供一些高级技巧。
13 1
|
11天前
|
存储 安全 网络安全
|
3天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
14 2
|
4天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第38天】本文将探讨网络安全与信息安全的重要性,包括网络安全漏洞、加密技术和安全意识等方面。我们将通过代码示例和实际操作来展示如何保护网络和信息安全。无论你是个人用户还是企业,都需要了解这些知识以保护自己的网络安全和信息安全。
|
3天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全策略
【10月更文挑战第39天】随着云计算的飞速发展,越来越多的企业和个人将数据和服务迁移到云端。然而,随之而来的网络安全问题也日益突出。本文将从云计算的基本概念出发,深入探讨在云服务中如何实施有效的网络安全和信息安全措施。我们将分析云服务模型(IaaS, PaaS, SaaS)的安全特性,并讨论如何在这些平台上部署安全策略。文章还将涉及最新的网络安全技术和实践,旨在为读者提供一套全面的云计算安全解决方案。
|
3天前
|
存储 安全 网络安全
网络安全与信息安全:漏洞、加密技术与安全意识的交织
【10月更文挑战第39天】在数字化时代,网络安全与信息安全成为保护个人隐私和组织资产的重要屏障。本文将探讨网络安全中的常见漏洞、加密技术的应用以及提升安全意识的重要性。通过具体案例分析,我们将深入了解网络攻击的手段和防御策略,同时提供实用建议,以增强读者对网络安全的认识和防护能力。