PyTorch 2.2 中文官方教程(四)(1)https://developer.aliyun.com/article/1482491
结束思考
现在我们有一个通用的数据管道和训练循环,您可以使用它来训练许多类型的模型使用 Pytorch。要了解现在训练模型有多简单,请查看mnist_sample 笔记本。
当然,您可能想要添加许多其他功能,例如数据增强、超参数调整、监视训练、迁移学习等。这些功能在 fastai 库中可用,该库是使用本教程中展示的相同设计方法开发的,为希望进一步发展其模型的从业者提供了一个自然的下一步。
我们在本教程开始时承诺通过示例解释每个torch.nn
,torch.optim
,Dataset
和DataLoader
。所以让我们总结一下我们所看到的内容:
torch.nn
:
Module
:创建一个可调用的函数,但也可以包含状态(例如神经网络层权重)。它知道它包含的Parameter
(s),可以将它们的梯度清零,循环遍历它们进行权重更新等。Parameter
:一个张量的包装器,告诉Module
它有需要在反向传播过程中更新的权重。只有设置了 requires_grad 属性的张量才会被更新functional
:一个模块(通常按照惯例导入到F
命名空间中),其中包含激活函数、损失函数等,以及卷积和线性层的非状态版本。
torch.optim
:包含诸如SGD
之类的优化器,在反向步骤中更新Parameter
的权重Dataset
:具有__len__
和__getitem__
的对象的抽象接口,包括 Pytorch 提供的类,如TensorDataset
DataLoader
:接受任何Dataset
并创建一个返回数据批次的迭代器。
脚本的总运行时间:(0 分钟 36.765 秒)
下载 Python 源代码:nn_tutorial.py
下载 Jupyter 笔记本:nn_tutorial.ipynb
使用 TensorBoard 可视化模型、数据和训练
原文:
pytorch.org/tutorials/intermediate/tensorboard_tutorial.html
译者:飞龙
在60 分钟入门中,我们向您展示如何加载数据,将其通过我们定义的nn.Module
子类模型,对训练数据进行训练,并在测试数据上进行测试。为了了解发生了什么,我们在模型训练时打印出一些统计数据,以了解训练是否在进行中。然而,我们可以做得更好:PyTorch 集成了 TensorBoard,这是一个用于可视化神经网络训练结果的工具。本教程演示了一些其功能,使用Fashion-MNIST 数据集,可以使用 torchvision.datasets 将其读入 PyTorch。
在本教程中,我们将学习如何:
- 读取数据并进行适当的转换(与之前的教程几乎相同)。
- 设置 TensorBoard。
- 写入 TensorBoard。
- 使用 TensorBoard 检查模型架构。
- 使用 TensorBoard 创建上一个教程中创建的可视化的交互版本,代码更少
具体来说,在第 5 点上,我们将看到:
- 检查我们的训练数据的几种方法
- 如何在模型训练过程中跟踪我们模型的性能
- 如何评估我们模型训练后的性能。
我们将从CIFAR-10 教程中类似的样板代码开始:
# imports import matplotlib.pyplot as plt import numpy as np import torch import torchvision import torchvision.transforms as transforms import torch.nn as nn import torch.nn.functional as F import torch.optim as optim # transforms transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,))]) # datasets trainset = torchvision.datasets.FashionMNIST('./data', download=True, train=True, transform=transform) testset = torchvision.datasets.FashionMNIST('./data', download=True, train=False, transform=transform) # dataloaders trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=True, num_workers=2) testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2) # constant for classes classes = ('T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot') # helper function to show an image # (used in the `plot_classes_preds` function below) def matplotlib_imshow(img, one_channel=False): if one_channel: img = img.mean(dim=0) img = img / 2 + 0.5 # unnormalize npimg = img.numpy() if one_channel: plt.imshow(npimg, cmap="Greys") else: plt.imshow(np.transpose(npimg, (1, 2, 0)))
我们将定义一个类似于该教程的模型架构,只需进行轻微修改以适应图像现在是单通道而不是三通道,28x28 而不是 32x32 的事实:
class Net(nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = nn.Conv2d(1, 6, 5) self.pool = nn.MaxPool2d(2, 2) self.conv2 = nn.Conv2d(6, 16, 5) self.fc1 = nn.Linear(16 * 4 * 4, 120) self.fc2 = nn.Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): x = self.pool(F.relu(self.conv1(x))) x = self.pool(F.relu(self.conv2(x))) x = x.view(-1, 16 * 4 * 4) x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x net = Net()
我们将从之前定义的相同的optimizer
和criterion
开始:
criterion = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
1. TensorBoard 设置
现在我们将设置 TensorBoard,从torch.utils
导入tensorboard
并定义一个SummaryWriter
,这是我们向 TensorBoard 写入信息的关键对象。
from torch.utils.tensorboard import SummaryWriter # default `log_dir` is "runs" - we'll be more specific here writer = SummaryWriter('runs/fashion_mnist_experiment_1')
请注意,这一行代码会创建一个runs/fashion_mnist_experiment_1
文件夹。
2. 写入 TensorBoard
现在让我们向 TensorBoard 写入一张图片 - 具体来说,使用make_grid创建一个网格。
# get some random training images dataiter = iter(trainloader) images, labels = next(dataiter) # create grid of images img_grid = torchvision.utils.make_grid(images) # show images matplotlib_imshow(img_grid, one_channel=True) # write to tensorboard writer.add_image('four_fashion_mnist_images', img_grid)
现在正在运行
tensorboard --logdir=runs
从命令行中导航到localhost:6006
应该显示以下内容。
现在你知道如何使用 TensorBoard 了!然而,这个例子也可以在 Jupyter Notebook 中完成 - TensorBoard 真正擅长的是创建交互式可视化。我们将在教程结束时介绍其中的一个,以及更多其他功能。
3. 使用 TensorBoard 检查模型
TensorBoard 的一个优势是它能够可视化复杂的模型结构。让我们可视化我们构建的模型。
writer.add_graph(net, images) writer.close()
现在刷新 TensorBoard 后,您应该看到一个类似于这样的“Graphs”选项卡:
继续双击“Net”以展开,查看组成模型的各个操作的详细视图。
TensorBoard 有一个非常方便的功能,可以将高维数据(如图像数据)可视化为一个较低维度的空间;我们将在下面介绍这个功能。
4. 向 TensorBoard 添加“Projector”
我们可以通过add_embedding方法可视化高维数据的低维表示
# helper function def select_n_random(data, labels, n=100): ''' Selects n random datapoints and their corresponding labels from a dataset ''' assert len(data) == len(labels) perm = torch.randperm(len(data)) return data[perm][:n], labels[perm][:n] # select random images and their target indices images, labels = select_n_random(trainset.data, trainset.targets) # get the class labels for each image class_labels = [classes[lab] for lab in labels] # log embeddings features = images.view(-1, 28 * 28) writer.add_embedding(features, metadata=class_labels, label_img=images.unsqueeze(1)) writer.close()
现在在 TensorBoard 的“Projector”标签中,您可以看到这 100 张图片 - 每张图片都是 784 维的 - 投影到三维空间中。此外,这是交互式的:您可以单击并拖动以旋转三维投影。最后,为了使可视化更容易看到,有几个提示:在左上角选择“颜色:标签”,并启用“夜间模式”,这将使图像更容易看到,因为它们的背景是白色的:
现在我们已经彻底检查了我们的数据,让我们展示一下 TensorBoard 如何使跟踪模型训练和评估更清晰,从训练开始。
5. 使用 TensorBoard 跟踪模型训练
在先前的示例中,我们只是打印了模型的运行损失,每 2000 次迭代一次。现在,我们将把运行损失记录到 TensorBoard 中,以及通过plot_classes_preds
函数查看模型的预测。
# helper functions def images_to_probs(net, images): ''' Generates predictions and corresponding probabilities from a trained network and a list of images ''' output = net(images) # convert output probabilities to predicted class _, preds_tensor = torch.max(output, 1) preds = np.squeeze(preds_tensor.numpy()) return preds, [F.softmax(el, dim=0)[i].item() for i, el in zip(preds, output)] def plot_classes_preds(net, images, labels): ''' Generates matplotlib Figure using a trained network, along with images and labels from a batch, that shows the network's top prediction along with its probability, alongside the actual label, coloring this information based on whether the prediction was correct or not. Uses the "images_to_probs" function. ''' preds, probs = images_to_probs(net, images) # plot the images in the batch, along with predicted and true labels fig = plt.figure(figsize=(12, 48)) for idx in np.arange(4): ax = fig.add_subplot(1, 4, idx+1, xticks=[], yticks=[]) matplotlib_imshow(images[idx], one_channel=True) ax.set_title("{0}, {1:.1f}%\n(label: {2})".format( classes[preds[idx]], probs[idx] * 100.0, classes[labels[idx]]), color=("green" if preds[idx]==labels[idx].item() else "red")) return fig
最后,让我们使用之前教程中相同的模型训练代码来训练模型,但是每 1000 批次将结果写入 TensorBoard,而不是打印到控制台;这可以使用add_scalar函数来实现。
此外,当我们训练时,我们将生成一幅图像,显示模型对该批次中包含的四幅图像的预测与实际结果。
running_loss = 0.0 for epoch in range(1): # loop over the dataset multiple times for i, data in enumerate(trainloader, 0): # get the inputs; data is a list of [inputs, labels] inputs, labels = data # zero the parameter gradients optimizer.zero_grad() # forward + backward + optimize outputs = net(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() if i % 1000 == 999: # every 1000 mini-batches... # ...log the running loss writer.add_scalar('training loss', running_loss / 1000, epoch * len(trainloader) + i) # ...log a Matplotlib Figure showing the model's predictions on a # random mini-batch writer.add_figure('predictions vs. actuals', plot_classes_preds(net, inputs, labels), global_step=epoch * len(trainloader) + i) running_loss = 0.0 print('Finished Training')
您现在可以查看标量标签,看看在训练的 15000 次迭代中绘制的运行损失:
此外,我们可以查看模型在学习过程中对任意批次的预测。查看“Images”标签,并在“预测与实际”可视化下滚动,以查看这一点;这向我们展示,例如,在仅 3000 次训练迭代后,模型已经能够区分视觉上不同的类别,如衬衫、运动鞋和外套,尽管它在训练后期变得更加自信:
在之前的教程中,我们在模型训练后查看了每个类别的准确率;在这里,我们将使用 TensorBoard 来为每个类别绘制精确度-召回率曲线(好的解释在这里)。
6. 使用 TensorBoard 评估训练好的模型
# 1\. gets the probability predictions in a test_size x num_classes Tensor # 2\. gets the preds in a test_size Tensor # takes ~10 seconds to run class_probs = [] class_label = [] with torch.no_grad(): for data in testloader: images, labels = data output = net(images) class_probs_batch = [F.softmax(el, dim=0) for el in output] class_probs.append(class_probs_batch) class_label.append(labels) test_probs = torch.cat([torch.stack(batch) for batch in class_probs]) test_label = torch.cat(class_label) # helper function def add_pr_curve_tensorboard(class_index, test_probs, test_label, global_step=0): ''' Takes in a "class_index" from 0 to 9 and plots the corresponding precision-recall curve ''' tensorboard_truth = test_label == class_index tensorboard_probs = test_probs[:, class_index] writer.add_pr_curve(classes[class_index], tensorboard_truth, tensorboard_probs, global_step=global_step) writer.close() # plot all the pr curves for i in range(len(classes)): add_pr_curve_tensorboard(i, test_probs, test_label)
现在您将看到一个包含每个类别精确度-召回率曲线的“PR 曲线”标签。继续浏览;您会看到在某些类别上,模型几乎有 100%的“曲线下面积”,而在其他类别上,这个面积较低:
这就是 TensorBoard 和 PyTorch 与其集成的简介。当然,您可以在 Jupyter Notebook 中做 TensorBoard 所做的一切,但是使用 TensorBoard,您会得到默认情况下是交互式的可视化。
图像和视频
TorchVision 目标检测微调教程
原文:
pytorch.org/tutorials/intermediate/torchvision_tutorial.html
译者:飞龙
注意
点击这里下载完整示例代码
在本教程中,我们将对宾夕法尼亚大学行人检测和分割数据库上的预训练Mask R-CNN模型进行微调。它包含 170 张图像,有 345 个行人实例,我们将用它来演示如何使用 torchvision 中的新功能来训练自定义数据集上的目标检测和实例分割模型。
注意
本教程仅适用于 torchvision 版本>=0.16 或夜间版本。如果您使用的是 torchvision<=0.15,请按照此教程操作。
定义数据集
用于训练目标检测、实例分割和人体关键点检测的参考脚本允许轻松支持添加新的自定义数据集。数据集应该继承自标准torch.utils.data.Dataset
类,并实现__len__
和__getitem__
。
我们唯一要求的特定性是数据集__getitem__
应返回一个元组:
- image:形状为
[3, H, W]
的torchvision.tv_tensors.Image
,一个纯张量,或大小为(H, W)
的 PIL 图像 - 目标:包含以下字段的字典
boxes
,形状为[N, 4]
的torchvision.tv_tensors.BoundingBoxes
:N
个边界框的坐标,格式为[x0, y0, x1, y1]
,范围从0
到W
和0
到H
labels
,形状为[N]
的整数torch.Tensor
:每个边界框的标签。0
始终表示背景类。image_id
,整数:图像标识符。它应该在数据集中的所有图像之间是唯一的,并在评估过程中使用area
,形状为[N]
的浮点数torch.Tensor
:边界框的面积。在使用 COCO 指标进行评估时使用,以区分小、中和大框之间的指标分数。iscrowd
,形状为[N]
的 uint8torch.Tensor
:具有iscrowd=True
的实例在评估过程中将被忽略。- (可选)
masks
,形状为[N, H, W]
的torchvision.tv_tensors.Mask
:每个对象的分割掩码
如果您的数据集符合上述要求,则可以在参考脚本中的训练和评估代码中使用。评估代码将使用pycocotools
中的脚本,可以通过pip install pycocotools
安装。
注意
对于 Windows,请使用以下命令从gautamchitnis安装pycocotools
pip install git+https://github.com/gautamchitnis/cocoapi.git@cocodataset-master#subdirectory=PythonAPI
关于labels
的一点说明。模型将类0
视为背景。如果您的数据集不包含背景类,则在labels
中不应该有0
。例如,假设您只有两类,猫和狗,您可以定义1
(而不是0
)表示猫,2
表示狗。因此,例如,如果一张图像同时包含两类,则您的labels
张量应该如下所示[1, 2]
。
此外,如果您想在训练期间使用纵横比分组(以便每个批次只包含具有相似纵横比的图像),则建议还实现一个get_height_and_width
方法,该方法返回图像的高度和宽度。如果未提供此方法,我们将通过__getitem__
查询数据集的所有元素,这会将图像加载到内存中,比提供自定义方法慢。
为 PennFudan 编写自定义数据集
让我们为 PennFudan 数据集编写一个数据集。首先,让我们下载数据集并提取zip 文件:
wget https://www.cis.upenn.edu/~jshi/ped_html/PennFudanPed.zip -P data cd data && unzip PennFudanPed.zip
我们有以下文件夹结构:
PennFudanPed/ PedMasks/ FudanPed00001_mask.png FudanPed00002_mask.png FudanPed00003_mask.png FudanPed00004_mask.png ... PNGImages/ FudanPed00001.png FudanPed00002.png FudanPed00003.png FudanPed00004.png
这是一对图像和分割蒙版的示例
import matplotlib.pyplot as plt from torchvision.io import read_image image = read_image("data/PennFudanPed/PNGImages/FudanPed00046.png") mask = read_image("data/PennFudanPed/PedMasks/FudanPed00046_mask.png") plt.figure(figsize=(16, 8)) plt.subplot(121) plt.title("Image") plt.imshow(image.permute(1, 2, 0)) plt.subplot(122) plt.title("Mask") plt.imshow(mask.permute(1, 2, 0))
<matplotlib.image.AxesImage object at 0x7f489920ffd0>
因此,每个图像都有一个相应的分割蒙版,其中每种颜色对应不同的实例。让我们为这个数据集编写一个torch.utils.data.Dataset
类。在下面的代码中,我们将图像、边界框和蒙版封装到torchvision.tv_tensors.TVTensor
类中,以便我们能够应用 torchvision 内置的转换(新的转换 API)来完成给定的目标检测和分割任务。换句话说,图像张量将被torchvision.tv_tensors.Image
封装,边界框将被封装为torchvision.tv_tensors.BoundingBoxes
,蒙版将被封装为torchvision.tv_tensors.Mask
。由于torchvision.tv_tensors.TVTensor
是torch.Tensor
的子类,封装的对象也是张量,并继承了普通的torch.Tensor
API。有关 torchvision tv_tensors
的更多信息,请参阅此文档。
import os import torch from torchvision.io import read_image from torchvision.ops.boxes import masks_to_boxes from torchvision import tv_tensors from torchvision.transforms.v2 import functional as F class PennFudanDataset(torch.utils.data.Dataset): def __init__(self, root, transforms): self.root = root self.transforms = transforms # load all image files, sorting them to # ensure that they are aligned self.imgs = list(sorted(os.listdir(os.path.join(root, "PNGImages")))) self.masks = list(sorted(os.listdir(os.path.join(root, "PedMasks")))) def __getitem__(self, idx): # load images and masks img_path = os.path.join(self.root, "PNGImages", self.imgs[idx]) mask_path = os.path.join(self.root, "PedMasks", self.masks[idx]) img = read_image(img_path) mask = read_image(mask_path) # instances are encoded as different colors obj_ids = torch.unique(mask) # first id is the background, so remove it obj_ids = obj_ids[1:] num_objs = len(obj_ids) # split the color-encoded mask into a set # of binary masks masks = (mask == obj_ids[:, None, None]).to(dtype=torch.uint8) # get bounding box coordinates for each mask boxes = masks_to_boxes(masks) # there is only one class labels = torch.ones((num_objs,), dtype=torch.int64) image_id = idx area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0]) # suppose all instances are not crowd iscrowd = torch.zeros((num_objs,), dtype=torch.int64) # Wrap sample and targets into torchvision tv_tensors: img = tv_tensors.Image(img) target = {} target["boxes"] = tv_tensors.BoundingBoxes(boxes, format="XYXY", canvas_size=F.get_size(img)) target["masks"] = tv_tensors.Mask(masks) target["labels"] = labels target["image_id"] = image_id target["area"] = area target["iscrowd"] = iscrowd if self.transforms is not None: img, target = self.transforms(img, target) return img, target def __len__(self): return len(self.imgs)
这就是数据集的全部内容。现在让我们定义一个可以在此数据集上执行预测的模型。
PyTorch 2.2 中文官方教程(四)(3)https://developer.aliyun.com/article/1482494