pytorch实现YoloV3模型

简介: pytorch实现YoloV3模型

yoloV3的学习笔记

以下内容是学习Bubbliiiing大佬,自己整理的笔记

大佬的CSDN链接 点击这里


YOLOv3

Yolov3的模型的实现过程

image.png

简单介绍:


yolov3主要主要就是通过Darknet-53的主干网络进行特征的提取。首先是进行输入的数据的大小—>先是进行一次卷积的处理,增加通道数,


主干部分Darknet-53

主干网络是Darknet53,其重要特点是使用了残缺网络Residual。darknet53中的残差卷积就是进行一次3*3,步长为2的卷积,然后保存该卷积layer,再进行一次1 x 1的卷积和一次3x3的卷积


1.Darknet-53 主干部分

def darknet53(pretrained, **kwargs):
    LoopList = [1, 2, 8, 8, 4]  # 每一个残差网络块训练迭代的次数
    model = DarkNet(LoopList)
    if pretrained:
        if isinstance(pretrained, str):
            model.load_state_dict(torch.load(pretrained))
        else:
            raise Exception("darknet request a pretrained path. got[{}]".format(pretrained))
    return model
class DarkNet(nn.Module):  # 主干DarkNet53
    def __init__(self, layers):
        super(DarkNet, self).__init__()
        self.inplanes = 32  # 通道数
        # 416*416*3--->416*416*32  扩充通道数,即使扩充其中的特征图
        """1.卷积"""
        self.conv1 = nn.Conv2d(3, self.inplanes, kernel_size=3, stride=1, padding=1, bias=False)
        # 输入图像的深度-->3(一开始的RGB) 输出图像的深度-->后来变成了32
        # kernel_size卷积核大小3*3  stride 步长1  padding 卷积是否造成尺寸丢失,1为不丢失
        """2.标准化"""
        self.bn1 = nn.BatchNorm2d(self.inplanes)
        # 对通道数进行标准化,还可以加一个参数表示进行百分之多少的标志化
        """3.激活函数"""
        self.relu1 = nn.LeakyReLU(0.1)
        # torch.nn.LeakyReLU(negative_slope=0.01, inplace=False)
        # negative_slope:控制负斜率的角度,默认等于0.01
        # inplace-选择是否进行覆盖运算
        # 1.能解决深度神经网络(层数非常多)的"梯度消失"问题,浅层神经网络(三五层那种)才用sigmoid 作为激活函数。
        # 2.它能加快收敛速度。
        """Residual Block的不断堆叠"""
        # 这些残差块的堆叠是为了进行特征的提取
        # 416*416*32--->208*208*64
        self.layerFirst = self._make_layer([32, 64], layers[0])
        # 输入的通道数,输出的通道数,进行多少次类似的操作,即使传入进来的数组
        # 208*208*64--->104*104*128
        self.layerSecond = self._make_layer([64, 128], layers[1])
        # 104*104*128--->52*52*256
        self.layerThird = self._make_layer([128, 256], layers[2])
        # 52*52*256--->26*26*512
        self.layerFouth = self._make_layer([256, 512], layers[3])
        # 26*26*512--->13*13*1024
        self.layerFifth = self._make_layer([512, 1024], layers[4])
        self.layers_out_filters = [64, 128, 256, 512, 1024]
        for m in self.modules():  # 权值的初始化
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))
            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()
    def _make_layer(self, planes, blocks):
        # 在每一个layer里面,首先利用一个步长为2的3*3的卷积进行下采样
        # 然后再进行残差结构的堆叠
        layers = []
        layers.append(("ds_conv", nn.Conv2d(self.inplanes, planes[1], kernel_size=3, stride=2, padding=1, bias=False)))
        layers.append(("ds_bn", nn.BatchNorm2d(planes[1])))  # 类似上面的卷积部分,提取特征
        layers.append(("ds_relu", nn.LeakyReLU(0.1)))
        # 加入残差
        self.inplanes = planes[1]
        for i in range(0, blocks):
            layers.append(("residual_{}".format(i), BasicBlock(self.inplanes, planes)))
        return nn.Sequential(OrderedDict(layers))
        # 这是一个有顺序的容器,将特定神经网络模块按照在传入构造器的顺序依次被添加到计算图中执行
    def forward(self,x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu1(x)
        x = self.layerFirst(x)
        x = self.layerSecond(x)
        outThird = self.layerThird(x)
        outForth = self.layerFouth(outThird)
        outFifth = self.layerFifth(outForth)
        return outThird, outForth, outFifth
2.残差块(基本组成)
image.png
class BasicBlock(nn.Module):  # 主体的残差网络
    def __init__(self, inplanes, planes):
        super(BasicBlock, self).__init__()
        # 两次的卷积操作
        # 先是利用一个1*1的卷积下降通道数。进行一次整理浓缩。
        self.conv1 = nn.Conv2d(inplanes, planes[0], kernel_size=1, stride=1, padding=0, bias=False)
        self.bn1 = nn.BatchNorm2d(planes[0])
        self.relu1 = nn.LeakyReLU(0.1)
        # 然后利用一个3*3卷积提取特征并且提取特征并且上升通道数。将浓缩的部分扩大,使其变成了更加具有特征的东西。
        self.conv2 = nn.Conv2d(planes[0], planes[1], kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes[1])
        self.relu2 = nn.LeakyReLU(0.1)
    def forward(self, x):
        residual = x   # 残差边
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu1(out)
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu2(out)
        out += residual
        return out

特征提取部分(右边)

1.右边部分的红色部分

进行特征的提取以及预测

"""make_last_layers里面一共有七个卷积,前五个用于特征提取。后面两个用于获得yolo网络的预测结果"""
# 就是红色的框框以及其上层
def make_last_layers(filters_list, in_filters, out_filter):
    m = nn.ModuleList([
        # 特征提取
        conv2d(in_filters, filters_list[0], 1),         # 1*1卷积 压缩通道数
        conv2d(filters_list[0], filters_list[1], 3),    # 3*3卷积提取特征
        conv2d(filters_list[1], filters_list[0], 1),    # 更加高效,更少参数
        conv2d(filters_list[0], filters_list[1], 3),
        conv2d(filters_list[1], filters_list[0], 1),
        # 用于yolo的预测
        conv2d(filters_list[0], filters_list[1], 3),
        nn.Conv2d(filters_list[1], out_filter, kernel_size=1, stride=1, padding=0, bias=True)
    ])
    return m
2.concat 堆叠过程

网络之间紧密的相连,形成特征金字塔,使得特征变得更加明显。

class YoloBody(nn.Module):
    def __init__(self, config):
        super(YoloBody, self).__init__()
        self.config = config
        """生成darknet53的主干模型"""
        # 获取三个有效特征层,shape分别是
        # 53*52*256
        # 26*26*512
        # 13*13*1024
        # 用于堆叠
        self.backbone = darknet53(None)   # 获取darknet53的结构
        # out_filters : [64,128,256,512,1024]
        out_filters = self.backbone.layers_out_filters
        # 计算yolo_head的输入通道数,对于voc数据集而言,  75 = 3*25 = 3*(20+1+4) 20个类
        # final_out_filter_zero = final_out_filter_one = final_out_filters = 75
        #  75 = 3*25 = 3*(20+1+4) 20个类
        final_out_filter_zero = len(config["yolo"]["anchors"][0]) * (5 + config["yolo"]["classes"])
        #   len(config["yolo"]["anchors"][0]) 3个先验框 5=(1+4) config["yolo"]["classes"] =20 个类
        self.last_layer_zero = make_last_layers([512, 1024], out_filters[-1], final_out_filter_zero)
        # 七次卷积的操作
        """进行的第一次卷积+上采样的过程,为后面Concat堆叠成特征金字塔"""
        final_out_filter_one = len(config["yolo"]["anchors"][1]) * (5 + config["yolo"]["classes"])
        self.last_layer_one_conv = conv2d(512, 256, 1)    # 1*1的卷积调整通道数
        self.last_layer_one_upsample = nn.Upsample(scale_factor=2, mode='nearest')  # 上采样
        self.last_layer_one = make_last_layers([256, 512], out_filters[-2]+256, final_out_filter_one)      # 得到特征.与其他堆叠
        """进行的第二次卷积+上采样的过程,为后面Concat堆叠成特征金字塔"""
        final_out_filter_two = len(config["yolo"]["anchors"][2]) * (5 + config["yolo"]["classes"])
        self.last_layer_two_conv = conv2d(256, 128, 1)    # 1*1的卷积调整变成128的通道数
        self.last_layer_two_upsample = nn.Upsample(scale_factor=2, mode='nearest')
        self.last_layer_two = make_last_layers([128, 256], out_filters[-3] + 128, final_out_filter_two)     # 得到特征.与其他堆叠
    def forward(self, x):            # 向前传递
        def _branch(last_layer, layer_in):   # 将5次卷积的结果保存,因为make_last_layers是七次的,把5次和2次分开。
            for i, e in enumerate(last_layer):
                layer_in = e(layer_in)
                if i == 4:
                    out_branch = layer_in
            return layer_in, out_branch
        # 获取三个有效的特征层,他们的shape分别是:
        # 52*52*256   26*26*512    13*13*1024
        x_two, x_one, x_zero = self.backbone(x)  # 将这个输入的x通过darknet提取三个特征层,用作堆叠。
        """第一个特征层 out_zero = (batch_size,255,13,13)"""
        # 13,13,1024 -> 13,13,512 -> 13,13,1024 -> 13,13,512 -> 13,13,1024 -> 13,13,512
        out_zero, out_zero_branch = _branch(self.last_layer_zero, x_zero)
        # 13,13,512 -> 13,13,256 -> 26,26,256   # 卷积
        x_one_in = self.last_layer_one_conv(out_zero_branch)
        x_one_in = self.last_layer_one_upsample(x_one_in)
        # 26,26,256 + 26,26,512 -> 26,26,768   # 堆叠过程
        x_one_in = torch.cat([x_one_in, x_one], 1)
        """第二个特征层 out_one = (batch_size,255,26,26)"""
        # 26,26,768 -> 26,26,256 -> 26,26,512 -> 26,26,256 -> 26,26,512 -> 26,26,256
        out_one, out_one_branch = _branch(self.last_layer_one, x_one_in)
        # 26,26,256 -> 26,26,128 -> 52,52,128  # 卷积
        x_two_in = self.last_layer_two_conv(out_one_branch)
        x_two_in = self.last_layer_two_upsample(x_two_in)
        # 52,52,128 + 52,525,256 --->52,52,384 # 堆叠过程
        x_two_in = torch.cat([x_two_in, x_two], 1)
        """第三个特征层 out_two = (batch_size ,255,52,52)"""
        # 52,52,384 -> 52,52,128 -> 52,52,256 -> 52,52,128 -> 52,52,256 -> 52,52,128
        out_two, _ = _branch(self.last_layer_two, x_two_in)  # 最后一次只是需要其中的第一个预测这一部分
        return out_zero, out_one, out_two

其他知识点

1.关于池化层(下采样层)

池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像。


下采样层也叫池化层,其具体操作与卷积层的操作基本相同,只不过下采样的卷积核为只取对应位置的最大值、平均值等(最大池化、平均池化),即矩阵之间的运算规律不一样,并且不经过反向传播的修改。


主要是两个作用:


1.invariance(不变性),这种不变性包括translation(平移),rotation(旋转),scale(尺度)


2.保留主要的特征同时减少参数(降维,效果类似PCA)和计算量,防止过拟合,提高模型泛化能力


特征不变性,也就是我们在图像处理中经常提到的特征的尺度不变性,池化操作就是图像的resize,平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片,这说明这张图像中仍保留着狗最重要的特征,我们一看就能判断图像中画的是一只狗,图像压缩时去掉的信息只是一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达图像的特征。


特征降维,我们知道一幅图像含有的信息是很大的,特征也很多,但是有些信息对于我们做图像任务时没有太多用途或者有重复,我们可以把这类冗余信息去除,把最重要的特征抽取出来,这也是池化操作的一大作用


(1) translation invariance:(特征不变性)

这里举一个直观的例子(数字识别),假设有一个16x16的图片,里面有个数字1,我们需要识别出来,这个数字1可能写的偏左一点(图1),这个数字1可能偏右一点(图2),图1到图2相当于向左向右平移了一个单位,但是图1和图2经过max pooling之后它们都变成了相同的8x8特征矩阵,主要的特征我们捕获到了,同时又将问题的规模从16x16降到了8x8,而且具有平移不变性的特点。图中的a(或b)表示,在原始图片中的这些a(或b)位置,最终都会映射到相同的位置。


(2) rotation invariance:(特征降维)

下图表示汉字“一”的识别,第一张相对于x轴有倾斜角,第二张是平行于x轴,两张图片相当于做了旋转,经过多次max pooling后具有相同的特征


池化层用的方法有Max pooling 和 average pooling,而实际用的较多的是Max pooling。


这里就说一下Max pooling,其实思想非常简单。


image.png



对于每个2x2的窗口选出最大的数作为输出矩阵的相应元素的值,比如输入矩阵第一个2*2窗口中最大的数是6,那么输出矩阵的第一个元素就是6,如此类推。


2.关于通道数

在计算机视觉处理中,一般图片数据除了是单通道的灰度图片外,就是RGB通道的彩色图片了,对RGB图片进行卷积操作后,根据过滤器的数量就可以产生更多的通道。事实上,多数情况还是叫后面的卷积层中的通道为,特征图。但实际上在张量表示下,特征图和前面提到的通道差不多,有时候后面的也都叫通道了。一种卷积核得到一个通道,所以特征图个数=输出通道数=卷积核个数。


这样看来,图片中的通道就是某种意义上的特征图。一个通道是对某个特征的检测,通道中某一处数值的强弱就是对当前特征强弱的反应。


如一个蓝色通道中,如果是256级的话,那么一个像素如果是255的话那么就表示蓝色度很大。从这个角度来看灰度图片的话,就会发现其实灰度图片就是一个白色过滤器生成的特征图。于是卷积网络中的特征图,也能够很直接地理解为通道了。

之后通过对一定范围的特征图进行卷积,可以将多个特征组合出来的模式抽取成一个特征,获得下一个特征图。

再继续,对特征图进行卷积,特征之间继续组合,获得更复杂的特征图。

又因为池化层的存在,会不断提取一定范围内最强烈的特征,并且缩小张量的大小,使得大范围内的特征组合也能够捕捉到。


3.关于1x1卷积的作用

通过特征角度来看卷积网络的话,那么1x1卷积也就很好理解了。即使1x1卷积前后的张量大小完全不变,比如说16x16x64 -> 16x16x64这样的卷积,看上去好像是没有变化。但实际上,可能通过特征之间的互动,已经由之前的64个特征图组成了新的64个特征图。有时候我理解一个这样的1x1卷积操作,就会把它当成是一次对之前特征的整理。


这样子不停卷积下去,直到最后一层,剩下一个一维向量时,每个标量代表着一个通道,捕捉到的特征又是什么呢。如果是物体分类任务的话,就正是我们需要输出判别的一个个物体类别。


image.png


比如说第一个数是代表猫特征,第二个数代表狗特征,第三个代表人… 这个时候去从里面选数值最大那个当做分类的种类就好了。到这里可能仔细的人会注意,最后几层不是没卷积操作吗,而是全连接网络。


一个概念上需要澄清的是,虽然说1x1卷积,而且也从融合特征角度,给了它特殊的理解。但如果再仔细看看的话,就会发现实际上1x1卷积就是全连接网络。所以我们可以把最后的1x1网络当成某种程度上的1x1卷积。


上面的网络最后几层,将张量展平然后输入全连接网络。因为剩下的特征图中都保留了很重要的信息,为了利用所有的信息,并且让它们获得足够的交互,所以直接输入全连接网络,获得最后的特征向量。


4.关于非极大值抑制(Non-Maximum Suppression,NMS)

顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小


目标是去除冗余的先验框,保留其中最好的一个

image.png


NMS原理


对于Bounding Box的列表B及其对应的置信度S,采用下面的计算方式。选择具有最大score的检测框M,将其从B集合中移除并加入到最终的检测结果D中。通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除。重复这个过程,直到B为空。


重叠率(重叠区域面积比例IOU)阈值


常用的阈值是 0.3 ~ 0.5。其中用到排序,可以按照右下角的坐标排序或者面积排序,也可以是通过SVM等分类器得到的得分或概率,R-CNN中就是按得分进行的排序。


image.png

就像上面的图片一样,定位一个车辆,最后算法就找出了一堆的先验框,我们需要判别哪些先验框是没用的。非极大值抑制的方法是:先假设有6个矩形框,根据分类器的类别分类概率做排序,假设从小到大属于车辆的概率 分别为A、B、C、D、E、F。


(1)从最大概率矩形框F开始,分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;


(2)假设B、D与F的重叠度超过阈值,那么就扔掉B、D;并标记第一个矩形框F,是我们保留下来的。


(3)从剩下的矩形框A、C、E中,选择概率最大的E,然后判断E与A、C的重叠度,重叠度大于一定的阈值,那么就扔掉;并标记E是我们保留下来的第二个矩形框。


遍历其余的框,如果和当前最高分框的重叠面积(IOU)大于一定阈值,我们就将框删除。就这样一直重复,找到所有被保留下来的矩形框


YoloV3整体部分


image.pngimage.png

image.png

相关文章
|
3月前
|
算法 PyTorch 算法框架/工具
Pytorch学习笔记(九):Pytorch模型的FLOPs、模型参数量等信息输出(torchstat、thop、ptflops、torchsummary)
本文介绍了如何使用torchstat、thop、ptflops和torchsummary等工具来计算Pytorch模型的FLOPs、模型参数量等信息。
457 2
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
本文探讨了Transformer模型中变长输入序列的优化策略,旨在解决深度学习中常见的计算效率问题。文章首先介绍了批处理变长输入的技术挑战,特别是填充方法导致的资源浪费。随后,提出了多种优化技术,包括动态填充、PyTorch NestedTensors、FlashAttention2和XFormers的memory_efficient_attention。这些技术通过减少冗余计算、优化内存管理和改进计算模式,显著提升了模型的性能。实验结果显示,使用FlashAttention2和无填充策略的组合可以将步骤时间减少至323毫秒,相比未优化版本提升了约2.5倍。
55 3
Transformer模型变长序列优化:解析PyTorch上的FlashAttention2与xFormers
|
3月前
|
机器学习/深度学习 自然语言处理 监控
利用 PyTorch Lightning 搭建一个文本分类模型
利用 PyTorch Lightning 搭建一个文本分类模型
89 7
利用 PyTorch Lightning 搭建一个文本分类模型
|
3月前
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
185 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
4月前
|
机器学习/深度学习 PyTorch 调度
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
在深度学习中,学习率作为关键超参数对模型收敛速度和性能至关重要。传统方法采用统一学习率,但研究表明为不同层设置差异化学习率能显著提升性能。本文探讨了这一策略的理论基础及PyTorch实现方法,包括模型定义、参数分组、优化器配置及训练流程。通过示例展示了如何为ResNet18设置不同层的学习率,并介绍了渐进式解冻和层适应学习率等高级技巧,帮助研究者更好地优化模型训练。
259 4
在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型
|
4月前
|
机器学习/深度学习 监控 PyTorch
PyTorch 模型调试与故障排除指南
在深度学习领域,PyTorch 成为开发和训练神经网络的主要框架之一。本文为 PyTorch 开发者提供全面的调试指南,涵盖从基础概念到高级技术的内容。目标读者包括初学者、中级开发者和高级工程师。本文探讨常见问题及解决方案,帮助读者理解 PyTorch 的核心概念、掌握调试策略、识别性能瓶颈,并通过实际案例获得实践经验。无论是在构建简单神经网络还是复杂模型,本文都将提供宝贵的洞察和实用技巧,帮助开发者更高效地开发和优化 PyTorch 模型。
61 3
PyTorch 模型调试与故障排除指南
|
3月前
|
存储 并行计算 PyTorch
探索PyTorch:模型的定义和保存方法
探索PyTorch:模型的定义和保存方法
|
5月前
|
机器学习/深度学习 PyTorch 编译器
PyTorch 与 TorchScript:模型的序列化与加速
【8月更文第27天】PyTorch 是一个非常流行的深度学习框架,它以其灵活性和易用性而著称。然而,当涉及到模型的部署和性能优化时,PyTorch 的动态计算图可能会带来一些挑战。为了解决这些问题,PyTorch 引入了 TorchScript,这是一个用于序列化和优化 PyTorch 模型的工具。本文将详细介绍如何使用 TorchScript 来序列化 PyTorch 模型以及如何加速模型的执行。
210 4
|
5月前
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch 与边缘计算:将深度学习模型部署到嵌入式设备
【8月更文第29天】随着物联网技术的发展,越来越多的数据处理任务开始在边缘设备上执行,以减少网络延迟、降低带宽成本并提高隐私保护水平。PyTorch 是一个广泛使用的深度学习框架,它不仅支持高效的模型训练,还提供了多种工具帮助开发者将模型部署到边缘设备。本文将探讨如何将PyTorch模型高效地部署到嵌入式设备上,并通过一个具体的示例来展示整个流程。
915 1
|
5月前
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch与Hugging Face Transformers:快速构建先进的NLP模型
【8月更文第27天】随着自然语言处理(NLP)技术的快速发展,深度学习模型已经成为了构建高质量NLP应用程序的关键。PyTorch 作为一种强大的深度学习框架,提供了灵活的 API 和高效的性能,非常适合于构建复杂的 NLP 模型。Hugging Face Transformers 库则是目前最流行的预训练模型库之一,它为 PyTorch 提供了大量的预训练模型和工具,极大地简化了模型训练和部署的过程。
286 2