PyTorch 2.2 中文官方教程（四）（2）-阿里云开发者社区

PyTorch 2.2 中文官方教程（四）（1）https://developer.aliyun.com/article/1482491

结束思考

现在我们有一个通用的数据管道和训练循环，您可以使用它来训练许多类型的模型使用 Pytorch。要了解现在训练模型有多简单，请查看mnist_sample 笔记本。

当然，您可能想要添加许多其他功能，例如数据增强、超参数调整、监视训练、迁移学习等。这些功能在 fastai 库中可用，该库是使用本教程中展示的相同设计方法开发的，为希望进一步发展其模型的从业者提供了一个自然的下一步。

我们在本教程开始时承诺通过示例解释每个torch.nn，torch.optim，Dataset和DataLoader。所以让我们总结一下我们所看到的内容：

torch.nn：

Module：创建一个可调用的函数，但也可以包含状态（例如神经网络层权重）。它知道它包含的Parameter(s)，可以将它们的梯度清零，循环遍历它们进行权重更新等。

Parameter：一个张量的包装器，告诉Module它有需要在反向传播过程中更新的权重。只有设置了 requires_grad 属性的张量才会被更新

functional：一个模块（通常按照惯例导入到F命名空间中），其中包含激活函数、损失函数等，以及卷积和线性层的非状态版本。

torch.optim：包含诸如SGD之类的优化器，在反向步骤中更新Parameter的权重

Dataset：具有__len__和__getitem__的对象的抽象接口，包括 Pytorch 提供的类，如TensorDataset

DataLoader：接受任何Dataset并创建一个返回数据批次的迭代器。

脚本的总运行时间：（0 分钟 36.765 秒）

下载 Python 源代码：nn_tutorial.py

下载 Jupyter 笔记本：nn_tutorial.ipynb

Sphinx-Gallery 生成的画廊

使用 TensorBoard 可视化模型、数据和训练

原文：pytorch.org/tutorials/intermediate/tensorboard_tutorial.html

译者：飞龙

协议：CC BY-NC-SA 4.0

在60 分钟入门中，我们向您展示如何加载数据，将其通过我们定义的nn.Module子类模型，对训练数据进行训练，并在测试数据上进行测试。为了了解发生了什么，我们在模型训练时打印出一些统计数据，以了解训练是否在进行中。然而，我们可以做得更好：PyTorch 集成了 TensorBoard，这是一个用于可视化神经网络训练结果的工具。本教程演示了一些其功能，使用Fashion-MNIST 数据集，可以使用 torchvision.datasets 将其读入 PyTorch。

在本教程中，我们将学习如何：

读取数据并进行适当的转换（与之前的教程几乎相同）。

设置 TensorBoard。

写入 TensorBoard。

使用 TensorBoard 检查模型架构。

使用 TensorBoard 创建上一个教程中创建的可视化的交互版本，代码更少

具体来说，在第 5 点上，我们将看到：

检查我们的训练数据的几种方法

如何在模型训练过程中跟踪我们模型的性能

如何评估我们模型训练后的性能。

我们将从CIFAR-10 教程中类似的样板代码开始：

# imports
import matplotlib.pyplot as plt
import numpy as np
import torch
import torchvision
import torchvision.transforms as transforms
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
# transforms
transform = transforms.Compose(
    [transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))])
# datasets
trainset = torchvision.datasets.FashionMNIST('./data',
    download=True,
    train=True,
    transform=transform)
testset = torchvision.datasets.FashionMNIST('./data',
    download=True,
    train=False,
    transform=transform)
# dataloaders
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                        shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                        shuffle=False, num_workers=2)
# constant for classes
classes = ('T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat',
        'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle Boot')
# helper function to show an image
# (used in the `plot_classes_preds` function below)
def matplotlib_imshow(img, one_channel=False):
    if one_channel:
        img = img.mean(dim=0)
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    if one_channel:
        plt.imshow(npimg, cmap="Greys")
    else:
        plt.imshow(np.transpose(npimg, (1, 2, 0)))

我们将定义一个类似于该教程的模型架构，只需进行轻微修改以适应图像现在是单通道而不是三通道，28x28 而不是 32x32 的事实：

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 4 * 4, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 4 * 4)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
net = Net()

我们将从之前定义的相同的optimizer和criterion开始：

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

1. TensorBoard 设置

现在我们将设置 TensorBoard，从torch.utils导入tensorboard并定义一个SummaryWriter，这是我们向 TensorBoard 写入信息的关键对象。

from torch.utils.tensorboard import SummaryWriter
# default `log_dir` is "runs" - we'll be more specific here
writer = SummaryWriter('runs/fashion_mnist_experiment_1')

请注意，这一行代码会创建一个runs/fashion_mnist_experiment_1文件夹。

2. 写入 TensorBoard

现在让我们向 TensorBoard 写入一张图片 - 具体来说，使用make_grid创建一个网格。

# get some random training images
dataiter = iter(trainloader)
images, labels = next(dataiter)
# create grid of images
img_grid = torchvision.utils.make_grid(images)
# show images
matplotlib_imshow(img_grid, one_channel=True)
# write to tensorboard
writer.add_image('four_fashion_mnist_images', img_grid)

现在正在运行

tensorboard --logdir=runs

从命令行中导航到localhost:6006应该显示以下内容。

现在你知道如何使用 TensorBoard 了！然而，这个例子也可以在 Jupyter Notebook 中完成 - TensorBoard 真正擅长的是创建交互式可视化。我们将在教程结束时介绍其中的一个，以及更多其他功能。

3. 使用 TensorBoard 检查模型

TensorBoard 的一个优势是它能够可视化复杂的模型结构。让我们可视化我们构建的模型。

writer.add_graph(net, images)
writer.close()

现在刷新 TensorBoard 后，您应该看到一个类似于这样的“Graphs”选项卡：

继续双击“Net”以展开，查看组成模型的各个操作的详细视图。

TensorBoard 有一个非常方便的功能，可以将高维数据（如图像数据）可视化为一个较低维度的空间；我们将在下面介绍这个功能。

4. 向 TensorBoard 添加“Projector”

我们可以通过add_embedding方法可视化高维数据的低维表示

# helper function
def select_n_random(data, labels, n=100):
  '''
 Selects n random datapoints and their corresponding labels from a dataset
 '''
    assert len(data) == len(labels)
    perm = torch.randperm(len(data))
    return data[perm][:n], labels[perm][:n]
# select random images and their target indices
images, labels = select_n_random(trainset.data, trainset.targets)
# get the class labels for each image
class_labels = [classes[lab] for lab in labels]
# log embeddings
features = images.view(-1, 28 * 28)
writer.add_embedding(features,
                    metadata=class_labels,
                    label_img=images.unsqueeze(1))
writer.close()

现在在 TensorBoard 的“Projector”标签中，您可以看到这 100 张图片 - 每张图片都是 784 维的 - 投影到三维空间中。此外，这是交互式的：您可以单击并拖动以旋转三维投影。最后，为了使可视化更容易看到，有几个提示：在左上角选择“颜色：标签”，并启用“夜间模式”，这将使图像更容易看到，因为它们的背景是白色的：

现在我们已经彻底检查了我们的数据，让我们展示一下 TensorBoard 如何使跟踪模型训练和评估更清晰，从训练开始。

5. 使用 TensorBoard 跟踪模型训练

在先前的示例中，我们只是打印了模型的运行损失，每 2000 次迭代一次。现在，我们将把运行损失记录到 TensorBoard 中，以及通过plot_classes_preds函数查看模型的预测。

# helper functions
def images_to_probs(net, images):
  '''
 Generates predictions and corresponding probabilities from a trained
 network and a list of images
 '''
    output = net(images)
    # convert output probabilities to predicted class
    _, preds_tensor = torch.max(output, 1)
    preds = np.squeeze(preds_tensor.numpy())
    return preds, [F.softmax(el, dim=0)[i].item() for i, el in zip(preds, output)]
def plot_classes_preds(net, images, labels):
  '''
 Generates matplotlib Figure using a trained network, along with images
 and labels from a batch, that shows the network's top prediction along
 with its probability, alongside the actual label, coloring this
 information based on whether the prediction was correct or not.
 Uses the "images_to_probs" function.
 '''
    preds, probs = images_to_probs(net, images)
    # plot the images in the batch, along with predicted and true labels
    fig = plt.figure(figsize=(12, 48))
    for idx in np.arange(4):
        ax = fig.add_subplot(1, 4, idx+1, xticks=[], yticks=[])
        matplotlib_imshow(images[idx], one_channel=True)
        ax.set_title("{0}, {1:.1f}%\n(label: {2})".format(
            classes[preds[idx]],
            probs[idx] * 100.0,
            classes[labels[idx]]),
                    color=("green" if preds[idx]==labels[idx].item() else "red"))
    return fig

最后，让我们使用之前教程中相同的模型训练代码来训练模型，但是每 1000 批次将结果写入 TensorBoard，而不是打印到控制台；这可以使用add_scalar函数来实现。

此外，当我们训练时，我们将生成一幅图像，显示模型对该批次中包含的四幅图像的预测与实际结果。

running_loss = 0.0
for epoch in range(1):  # loop over the dataset multiple times
    for i, data in enumerate(trainloader, 0):
        # get the inputs; data is a list of [inputs, labels]
        inputs, labels = data
        # zero the parameter gradients
        optimizer.zero_grad()
        # forward + backward + optimize
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        if i % 1000 == 999:    # every 1000 mini-batches...
            # ...log the running loss
            writer.add_scalar('training loss',
                            running_loss / 1000,
                            epoch * len(trainloader) + i)
            # ...log a Matplotlib Figure showing the model's predictions on a
            # random mini-batch
            writer.add_figure('predictions vs. actuals',
                            plot_classes_preds(net, inputs, labels),
                            global_step=epoch * len(trainloader) + i)
            running_loss = 0.0
print('Finished Training')

您现在可以查看标量标签，看看在训练的 15000 次迭代中绘制的运行损失：

此外，我们可以查看模型在学习过程中对任意批次的预测。查看“Images”标签，并在“预测与实际”可视化下滚动，以查看这一点；这向我们展示，例如，在仅 3000 次训练迭代后，模型已经能够区分视觉上不同的类别，如衬衫、运动鞋和外套，尽管它在训练后期变得更加自信：

在之前的教程中，我们在模型训练后查看了每个类别的准确率；在这里，我们将使用 TensorBoard 来为每个类别绘制精确度-召回率曲线（好的解释在这里）。

6. 使用 TensorBoard 评估训练好的模型

# 1\. gets the probability predictions in a test_size x num_classes Tensor
# 2\. gets the preds in a test_size Tensor
# takes ~10 seconds to run
class_probs = []
class_label = []
with torch.no_grad():
    for data in testloader:
        images, labels = data
        output = net(images)
        class_probs_batch = [F.softmax(el, dim=0) for el in output]
        class_probs.append(class_probs_batch)
        class_label.append(labels)
test_probs = torch.cat([torch.stack(batch) for batch in class_probs])
test_label = torch.cat(class_label)
# helper function
def add_pr_curve_tensorboard(class_index, test_probs, test_label, global_step=0):
  '''
 Takes in a "class_index" from 0 to 9 and plots the corresponding
 precision-recall curve
 '''
    tensorboard_truth = test_label == class_index
    tensorboard_probs = test_probs[:, class_index]
    writer.add_pr_curve(classes[class_index],
                        tensorboard_truth,
                        tensorboard_probs,
                        global_step=global_step)
    writer.close()
# plot all the pr curves
for i in range(len(classes)):
    add_pr_curve_tensorboard(i, test_probs, test_label)

现在您将看到一个包含每个类别精确度-召回率曲线的“PR 曲线”标签。继续浏览；您会看到在某些类别上，模型几乎有 100%的“曲线下面积”，而在其他类别上，这个面积较低：

这就是 TensorBoard 和 PyTorch 与其集成的简介。当然，您可以在 Jupyter Notebook 中做 TensorBoard 所做的一切，但是使用 TensorBoard，您会得到默认情况下是交互式的可视化。

图像和视频

TorchVision 目标检测微调教程

原文：pytorch.org/tutorials/intermediate/torchvision_tutorial.html

译者：飞龙

协议：CC BY-NC-SA 4.0

注意

点击这里下载完整示例代码

在本教程中，我们将对宾夕法尼亚大学行人检测和分割数据库上的预训练Mask R-CNN模型进行微调。它包含 170 张图像，有 345 个行人实例，我们将用它来演示如何使用 torchvision 中的新功能来训练自定义数据集上的目标检测和实例分割模型。

注意

本教程仅适用于 torchvision 版本>=0.16 或夜间版本。如果您使用的是 torchvision<=0.15，请按照此教程操作。

定义数据集

用于训练目标检测、实例分割和人体关键点检测的参考脚本允许轻松支持添加新的自定义数据集。数据集应该继承自标准torch.utils.data.Dataset类，并实现__len__和__getitem__。

我们唯一要求的特定性是数据集__getitem__应返回一个元组：

image：形状为[3, H, W]的torchvision.tv_tensors.Image，一个纯张量，或大小为(H, W)的 PIL 图像
目标：包含以下字段的字典

boxes，形状为[N, 4]的torchvision.tv_tensors.BoundingBoxes：N个边界框的坐标，格式为[x0, y0, x1, y1]，范围从0到W和0到H
labels，形状为[N]的整数torch.Tensor：每个边界框的标签。0始终表示背景类。
image_id，整数：图像标识符。它应该在数据集中的所有图像之间是唯一的，并在评估过程中使用
area，形状为[N]的浮点数torch.Tensor：边界框的面积。在使用 COCO 指标进行评估时使用，以区分小、中和大框之间的指标分数。
iscrowd，形状为[N]的 uint8 torch.Tensor：具有iscrowd=True的实例在评估过程中将被忽略。
（可选）masks，形状为[N, H, W]的torchvision.tv_tensors.Mask：每个对象的分割掩码

如果您的数据集符合上述要求，则可以在参考脚本中的训练和评估代码中使用。评估代码将使用pycocotools中的脚本，可以通过pip install pycocotools安装。

注意

对于 Windows，请使用以下命令从gautamchitnis安装pycocotools

pip install git+https://github.com/gautamchitnis/cocoapi.git@cocodataset-master#subdirectory=PythonAPI

关于labels的一点说明。模型将类0视为背景。如果您的数据集不包含背景类，则在labels中不应该有0。例如，假设您只有两类，猫和狗，您可以定义1（而不是0）表示猫，2表示狗。因此，例如，如果一张图像同时包含两类，则您的labels张量应该如下所示[1, 2]。

此外，如果您想在训练期间使用纵横比分组（以便每个批次只包含具有相似纵横比的图像），则建议还实现一个get_height_and_width方法，该方法返回图像的高度和宽度。如果未提供此方法，我们将通过__getitem__查询数据集的所有元素，这会将图像加载到内存中，比提供自定义方法慢。

为 PennFudan 编写自定义数据集

让我们为 PennFudan 数据集编写一个数据集。首先，让我们下载数据集并提取zip 文件：

wget https://www.cis.upenn.edu/~jshi/ped_html/PennFudanPed.zip -P data
cd data && unzip PennFudanPed.zip

我们有以下文件夹结构：

PennFudanPed/
  PedMasks/
    FudanPed00001_mask.png
    FudanPed00002_mask.png
    FudanPed00003_mask.png
    FudanPed00004_mask.png
    ...
  PNGImages/
    FudanPed00001.png
    FudanPed00002.png
    FudanPed00003.png
    FudanPed00004.png

这是一对图像和分割蒙版的示例

import matplotlib.pyplot as plt
from torchvision.io import read_image
image = read_image("data/PennFudanPed/PNGImages/FudanPed00046.png")
mask = read_image("data/PennFudanPed/PedMasks/FudanPed00046_mask.png")
plt.figure(figsize=(16, 8))
plt.subplot(121)
plt.title("Image")
plt.imshow(image.permute(1, 2, 0))
plt.subplot(122)
plt.title("Mask")
plt.imshow(mask.permute(1, 2, 0))

<matplotlib.image.AxesImage object at 0x7f489920ffd0>

因此，每个图像都有一个相应的分割蒙版，其中每种颜色对应不同的实例。让我们为这个数据集编写一个torch.utils.data.Dataset类。在下面的代码中，我们将图像、边界框和蒙版封装到torchvision.tv_tensors.TVTensor类中，以便我们能够应用 torchvision 内置的转换（新的转换 API）来完成给定的目标检测和分割任务。换句话说，图像张量将被torchvision.tv_tensors.Image封装，边界框将被封装为torchvision.tv_tensors.BoundingBoxes，蒙版将被封装为torchvision.tv_tensors.Mask。由于torchvision.tv_tensors.TVTensor是torch.Tensor的子类，封装的对象也是张量，并继承了普通的torch.Tensor API。有关 torchvision tv_tensors的更多信息，请参阅此文档。

import os
import torch
from torchvision.io import read_image
from torchvision.ops.boxes import masks_to_boxes
from torchvision import tv_tensors
from torchvision.transforms.v2 import functional as F
class PennFudanDataset(torch.utils.data.Dataset):
    def __init__(self, root, transforms):
        self.root = root
        self.transforms = transforms
        # load all image files, sorting them to
        # ensure that they are aligned
        self.imgs = list(sorted(os.listdir(os.path.join(root, "PNGImages"))))
        self.masks = list(sorted(os.listdir(os.path.join(root, "PedMasks"))))
    def __getitem__(self, idx):
        # load images and masks
        img_path = os.path.join(self.root, "PNGImages", self.imgs[idx])
        mask_path = os.path.join(self.root, "PedMasks", self.masks[idx])
        img = read_image(img_path)
        mask = read_image(mask_path)
        # instances are encoded as different colors
        obj_ids = torch.unique(mask)
        # first id is the background, so remove it
        obj_ids = obj_ids[1:]
        num_objs = len(obj_ids)
        # split the color-encoded mask into a set
        # of binary masks
        masks = (mask == obj_ids[:, None, None]).to(dtype=torch.uint8)
        # get bounding box coordinates for each mask
        boxes = masks_to_boxes(masks)
        # there is only one class
        labels = torch.ones((num_objs,), dtype=torch.int64)
        image_id = idx
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])
        # suppose all instances are not crowd
        iscrowd = torch.zeros((num_objs,), dtype=torch.int64)
        # Wrap sample and targets into torchvision tv_tensors:
        img = tv_tensors.Image(img)
        target = {}
        target["boxes"] = tv_tensors.BoundingBoxes(boxes, format="XYXY", canvas_size=F.get_size(img))
        target["masks"] = tv_tensors.Mask(masks)
        target["labels"] = labels
        target["image_id"] = image_id
        target["area"] = area
        target["iscrowd"] = iscrowd
        if self.transforms is not None:
            img, target = self.transforms(img, target)
        return img, target
    def __len__(self):
        return len(self.imgs)

这就是数据集的全部内容。现在让我们定义一个可以在此数据集上执行预测的模型。

PyTorch 2.2 中文官方教程（四）（3）https://developer.aliyun.com/article/1482494

PyTorch 2.2 中文官方教程（四）（2）

结束思考

使用 TensorBoard 可视化模型、数据和训练

1. TensorBoard 设置

2. 写入 TensorBoard

3. 使用 TensorBoard 检查模型

4. 向 TensorBoard 添加“Projector”

5. 使用 TensorBoard 跟踪模型训练

6. 使用 TensorBoard 评估训练好的模型

图像和视频

TorchVision 目标检测微调教程

定义数据集

为 PennFudan 编写自定义数据集

热门文章

最新文章

相关课程

相关电子书

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

PyTorch 2.2 中文官方教程（四）（2）

结束思考

使用 TensorBoard 可视化模型、数据和训练

1. TensorBoard 设置

2. 写入 TensorBoard

3. 使用 TensorBoard 检查模型

4. 向 TensorBoard 添加“Projector”

5. 使用 TensorBoard 跟踪模型训练

6. 使用 TensorBoard 评估训练好的模型

图像和视频

TorchVision 目标检测微调教程

定义数据集

为 PennFudan 编写自定义数据集

热门文章

最新文章

相关课程

相关电子书

推荐镜像