目标检测和边界框
%matplotlib inline from PIL import Image import sys sys.path.append('/home/input/') #数据集路径 import d2lzh1981 as d2l #已封装好的包 # 展示用于目标检测的图 d2l.set_figsize() #已封装好的包 img = Image.open('/home/input/img2083/img/catdog.jpg') d2l.plt.imshow(img); # 加分号只显示图
边界框
# bbox是bounding box的缩写 dog_bbox, cat_bbox = [60, 45, 378, 516], [400, 112, 655, 493] def bbox_to_rect(bbox, color): # 本函数已保存在d2lzh_pytorch中方便以后使用 # 将边界框(左上x, 左上y, 右下x, 右下y)格式转换成matplotlib格式: # ((左上x, 左上y), 宽, 高) return d2l.plt.Rectangle( xy=(bbox[0], bbox[1]), width=bbox[2]-bbox[0], height=bbox[3]-bbox[1], fill=False, edgecolor=color, linewidth=2) fig = d2l.plt.imshow(img) fig.axes.add_patch(bbox_to_rect(dog_bbox, 'blue')) fig.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
锚框
目标检测算法通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边缘从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法:它以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。这些边界框被称为锚框(anchor box)。我们将在后面基于锚框实践目标检测。
注: 建议想学习用PyTorch做检测的童鞋阅读一下仓库a-PyTorch-Tutorial-to-Object-Detection。
先导入一下相关包。
import numpy as np import math import torch import os IMAGE_DIR = '/home/input/img2083/img/'
生成多个锚框
d2l.set_figsize() img = Image.open(os.path.join(IMAGE_DIR, 'catdog.jpg')) w, h = img.size print("w = %d, h = %d" % (w, h)) # d2l.plt.imshow(img); # 加分号只显示图
输出:w = 728, h = 561
# 本函数已保存在d2lzh_pytorch包中方便以后使用 def MultiBoxPrior(feature_map, sizes=[0.75, 0.5, 0.25], ratios=[1, 2, 0.5]): """ # 按照「9.4.1. 生成多个锚框」所讲的实现, anchor表示成(xmin, ymin, xmax, ymax). https://zh.d2l.ai/chapter_computer-vision/anchor.html Args: feature_map: torch tensor, Shape: [N, C, H, W]. sizes: List of sizes (0~1) of generated MultiBoxPriores. ratios: List of aspect ratios (non-negative) of generated MultiBoxPriores. Returns: anchors of shape (1, num_anchors, 4). 由于batch里每个都一样, 所以第一维为1 """ pairs = [] # pair of (size, sqrt(ration)) # 生成n + m -1个框 for r in ratios: pairs.append([sizes[0], math.sqrt(r)]) for s in sizes[1:]: pairs.append([s, math.sqrt(ratios[0])]) pairs = np.array(pairs) # 生成相对于坐标中心点的框(x,y,x,y) ss1 = pairs[:, 0] * pairs[:, 1] # size * sqrt(ration) ss2 = pairs[:, 0] / pairs[:, 1] # size / sqrt(ration) base_anchors = np.stack([-ss1, -ss2, ss1, ss2], axis=1) / 2 #将坐标点和anchor组合起来生成hw(n+m-1)个框输出 h, w = feature_map.shape[-2:] shifts_x = np.arange(0, w) / w shifts_y = np.arange(0, h) / h shift_x, shift_y = np.meshgrid(shifts_x, shifts_y) shift_x = shift_x.reshape(-1) shift_y = shift_y.reshape(-1) shifts = np.stack((shift_x, shift_y, shift_x, shift_y), axis=1) anchors = shifts.reshape((-1, 1, 4)) + base_anchors.reshape((1, -1, 4)) return torch.tensor(anchors, dtype=torch.float32).view(1, -1, 4) X = torch.Tensor(1, 3, h, w) # 构造输入数据 Y = MultiBoxPrior(X, sizes=[0.75, 0.5, 0.25], ratios=[1, 2, 0.5]) print(Y.shape)
输出:torch.Size([1, 2042040, 4])
我们看到,返回锚框变量y
的形状为(1,锚框个数,4)。将锚框变量y
的形状变为(图像高,图像宽,以相同像素为中心的锚框个数,4)后,我们就可以通过指定像素位置来获取所有以该像素为中心的锚框了。下面的例子里我们访问以(250,250)为中心的第一个锚框。它有4个元素,分别是锚框左上角的和轴坐标和右下角的和轴坐标,其中和轴的坐标值分别已除以图像的宽和高,因此值域均为0和1之间。
# 展示某个像素点的anchor boxes = Y.reshape((h, w, 5, 4)) boxes[250, 250, 0, :]# * torch.tensor([w, h, w, h], dtype=torch.float32) # 第一个size和ratio分别为0.75和1, 则宽高均为0.75 = 0.7184 + 0.0316 = 0.8206 - 0.0706
输出:tensor([-0.0316, 0.0706, 0.7184, 0.8206])
可以验证一下以上输出对不对:size和ratio分别为0.75和1, 则(归一化后的)宽高均为0.75, 所以输出是正确的(0.75 = 0.7184 + 0.0316 = 0.8206 - 0.0706)。
为了描绘图像中以某个像素为中心的所有锚框,我们先定义show_bboxes
函数以便在图像上画出多个边界框。
# 本函数已保存在dd2lzh_pytorch包中方便以后使用 def show_bboxes(axes, bboxes, labels=None, colors=None): def _make_list(obj, default_values=None): if obj is None: obj = default_values elif not isinstance(obj, (list, tuple)): obj = [obj] return obj labels = _make_list(labels) colors = _make_list(colors, ['b', 'g', 'r', 'm', 'c']) for i, bbox in enumerate(bboxes): color = colors[i % len(colors)] rect = d2l.bbox_to_rect(bbox.detach().cpu().numpy(), color) axes.add_patch(rect) if labels and len(labels) > i: text_color = 'k' if color == 'w' else 'w' axes.text(rect.xy[0], rect.xy[1], labels[i], va='center', ha='center', fontsize=6, color=text_color, bbox=dict(facecolor=color, lw=0))
刚刚我们看到,变量boxes
中和轴的坐标值分别已除以图像的宽和高。在绘图时,我们需要恢复锚框的原始坐标值,并因此定义了变量bbox_scale
。现在,我们可以画出图像中以(250, 250)为中心的所有锚框了。可以看到,大小为0.75且宽高比为1的锚框较好地覆盖了图像中的狗。
# 展示 250 250像素点的anchor d2l.set_figsize() fig = d2l.plt.imshow(img) bbox_scale = torch.tensor([[w, h, w, h]], dtype=torch.float32) show_bboxes(fig.axes, boxes[250, 250, :, :] * bbox_scale, ['s=0.75, r=1', 's=0.75, r=2', 's=0.75, r=0.5', 's=0.5, r=1', 's=0.25, r=
交并比
# 以下函数已保存在d2lzh_pytorch包中方便以后使用 def compute_intersection(set_1, set_2): """ 计算anchor之间的交集 Args: set_1: a tensor of dimensions (n1, 4), anchor表示成(xmin, ymin, xmax, ymax) set_2: a tensor of dimensions (n2, 4), anchor表示成(xmin, ymin, xmax, ymax) Returns: intersection of each of the boxes in set 1 with respect to each of the boxes in set 2, shape: (n1, n2) """ # PyTorch auto-broadcasts singleton dimensions lower_bounds = torch.max(set_1[:, :2].unsqueeze(1), set_2[:, :2].unsqueeze(0)) # (n1, n2, 2) upper_bounds = torch.min(set_1[:, 2:].unsqueeze(1), set_2[:, 2:].unsqueeze(0)) # (n1, n2, 2) intersection_dims = torch.clamp(upper_bounds - lower_bounds, min=0) # (n1, n2, 2) return intersection_dims[:, :, 0] * intersection_dims[:, :, 1] # (n1, n2) def compute_jaccard(set_1, set_2): """ 计算anchor之间的Jaccard系数(IoU) Args: set_1: a tensor of dimensions (n1, 4), anchor表示成(xmin, ymin, xmax, ymax) set_2: a tensor of dimensions (n2, 4), anchor表示成(xmin, ymin, xmax, ymax) Returns: Jaccard Overlap of each of the boxes in set 1 with respect to each of the boxes in set 2, shape: (n1, n2) """ # Find intersections intersection = compute_intersection(set_1, set_2) # (n1, n2) # Find areas of each box in both sets areas_set_1 = (set_1[:, 2] - set_1[:, 0]) * (set_1[:, 3] - set_1[:, 1]) # (n1) areas_set_2 = (set_2[:, 2] - set_2[:, 0]) * (set_2[:, 3] - set_2[:, 1]) # (n2) # Find the union # PyTorch auto-broadcasts singleton dimensions union = areas_set_1.unsqueeze(1) + areas_set_2.unsqueeze(0) - intersection # (n1, n2) return intersection / union # (n1, n2)
标注训练集的锚框
在训练集中,我们将每个锚框视为一个训练样本。为了训练目标检测模型,我们需要为每个锚框标注两类标签:一是锚框所含目标的类别,简称类别;二是真实边界框相对锚框的偏移量,简称偏移量(offset)。在目标检测时,我们首先生成多个锚框,然后为每个锚框预测类别以及偏移量,接着根据预测的偏移量调整锚框位置从而得到预测边界框,最后筛选需要输出的预测边界框。
我们知道,在目标检测的训练集中,每个图像已标注了真实边界框的位置以及所含目标的类别。在生成锚框之后,我们主要依据与锚框相似的真实边界框的位置和类别信息为锚框标注。那么,该如何为锚框分配与其相似的真实边界框呢?
bbox_scale = torch.tensor((w, h, w, h), dtype=torch.float32) ground_truth = torch.tensor([[0, 0.1, 0.08, 0.52, 0.92], [1, 0.55, 0.2, 0.9, 0.88]]) anchors = torch.tensor([[0, 0.1, 0.2, 0.3], [0.15, 0.2, 0.4, 0.4], [0.63, 0.05, 0.88, 0.98], [0.66, 0.45, 0.8, 0.8], [0.57, 0.3, 0.92, 0.9]]) fig = d2l.plt.imshow(img) show_bboxes(fig.axes, ground_truth[:, 1:] * bbox_scale, ['dog', 'cat'], 'k') show_bboxes(fig.axes, anchors * bbox_scale, ['0', '1', '2', '3', '4']);