【Pytorch神经网络理论篇】 33 基于图片内容处理的机器视觉:目标检测+图片分割+非极大值抑制+Mask R-CNN模型

简介: 目标检测任务的精度相对较高,主要是以检测框的方式,找出图片中目标物体所在的位置。目标检测任务的模型运算量相对较小,速度相对较快。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

815902569f6a467a99304f9ac1482386.png


基于图片内容的处理任务,主要包括目标检测、图片分割两大任务。


1 目标检测


目标检测任务的精度相对较高,主要是以检测框的方式,找出图片中目标物体所在的位置。目标检测任务的模型运算量相对较小,速度相对较快。


1.1 目标检测任务概述


目标检测任务要求模型能检测出图片中特定的目体,并获得这一目标物体的类别信息和位置信息。


在目标检测任务中,模型的输出是一个列表,列表的每一项用一个数组给出检测出的标物体的类别和位置(常用检测框的坐标表示)。


1.2 目标检测任务模型的分类


1.2.1 单阶段(1-stage)检测模型:


主要指直接从图片获得预测结果,也被称为Region-free法。相关的模型有YOLO、SSD、RetinaNet。


1.2.2 两阶段(2-stage)检测模型:


主要指先检测包含实物的区域,再对该区域内的实物进行分类识别,相关模型有R-CNN、Faster R-CNN,Mask R-CNN。


1.2.3 两种分类的对比


单阶段检测模型在分类方面表现出的精度高。


两阶段检测模型在检测框方面表现出的精度高。


2 图片分割:其模型大多数是两阶段


图片分割是指对图中的每个像素点进行分类,适用于对像素理解要求较高的场景。


2.1 图片分割的分类


2.1.1 语义分割


能将图片中具有不同语义的部分分开。


2.1.2 实例分割


能描述出目标物体的轮廓(比检测框更为精细)。


2.2 目标检测+语义分割=实例分割


🐶目标检测:给你一张只有一条狗的图片,输入训练好的模型中(假设模型包含所有类型的狗),不管狗出现在图片中的哪个位置,它都能被检测为狗;给你一张有两条狗的图片,输入网络,会生成两个bbox,均被检测为狗,无法进行个体的区分。


🐶语义分割:对所有像素进行分类,图片中只要出现狗,都会被分为一类,同样无法进行个体的区分。


🐶实例分割:在所有不同类的狗的像素都被分类为狗的基础上,对不同类的狗进行目标定位,再给上狗1和狗2的标签,这就是实例分割。


92488e530ea04f91bb8593cd5734b116.png


3 非极大值抑制算法(Non-Max Suppression,NMS)


3.1 非极大值抑制算法的作用


在目标检测任务中,通常模型会从一张图片中检测出很多个结果,其中很有可能会出现重复物体(中心和大小略有不同)的情况。为了确保检测结果的唯一性,需要使用非极大值抑制算法对检测结果进行去重。


3.2 非极大值抑制算法的实现过程


1、从所有的检测框中找到置信度较大(置信度大于某个圆值)的检测框。


2、逐一计算其与剩余检测框的区域面积的重叠率(IOU)。


3、按照IOU阈值过滤。如果IOU大于一定阈值,则将该检测框剔除。


4、对剩余的检测框重复上述过程,直到处理完所有的检测框。


在整个过程中,用到的置信度阈值与lOU阈值需要提前给定。


3.3 IOU的概念(Intersection-over-Union)


IOU是交并比是目标检测中使用的一个概念是产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率,即它们的交集与并集的比值。最理想情况是完全重叠,即比值为1。在多目标跟踪中,用来判别跟踪框和目标检测框之间的相似度。


c496208ccdab48d395cb14c7043e5d99.png


4 Mask R-CNN模型


MaskR-CND模型属于两阶段检测模型,即该模型会先检测包含实物的区域,再对该区域内的实物进行分类识别。


4.1 检测实物区域的步骤


  • 1、按照非极大值抑制算法将一张图片分成多个子框。这些子框被称作描点(Anchor),锚点是不同尺寸的检测框,彼此间存在部分重叠。


  • 2、在图片中对具体实物进行标注其坐标(所属的位置区域)。


  • 3、根据实物标注的坐标与锚点区域的IOU,计算出前景与背景。计算规则为IOU高的就是前景,IOU低的就是背景,其余的就忽略。


  • 4、根据第3步结果中属于前景的锚点坐标和第2步结果中实物标注的坐标,算出二者的相对位移和长宽的缩放比例。


  • 5、最终,检测区域的任务会被转化成一堆锚点的分类(前景和背景)和回归任务(偏移和缩放)。


4.1.2 区域检测图解


如图2-2所示,每张图片都会将其自身标注的信息转化为与锚点对应的标签,让模型已有的锚点进行训练或识别。


ccd77590468647ef820d5b5a84e1eeaf.png


4.2 区域生成网络


在MaskR-CNN模型中,实现区域检测功能的网络被称作区域生成网络(Regon Proposal Network,RPN)。


4.3 感兴趣区域


在实际处理过程中,会从RPN的输出结果中选取前景概率较高的一定数量的锚点作为感兴趣区域(Region of Interest,ROI),送到第2阶段的网络中进行计算。


4.4 Mask R-CNN模型的完整步骤


4.4.1 Mask R-CNN模型的架构


0a75ab13b5dd442495012554d0a2074f.png


4.4.2 Mask R-CNN模型的完整步骤


1、提取主特征,这部分的模型又被称作骨干网络。它用来从图片中提取出一些不同尺寸的重要特征,通常用于一些预训练好的模型(如VGG模型、Inception模型、ResNet模型等)。这些获得的特征数据被称作特征图。


2、特征融合;用特征金字塔网络(FeaturePyramid Network,FPN)整合骨干网络中不同尺寸的特征。最终的特征信息用于后面的RPN和最终的分类器(classifer)网络的计算。


3、提取ROI:主要通过RPN来实现。RPN的作用是,在众多锚点中计算出前景和背景的预测值,并计算基于锚点的偏移,然后对前景概率较大的ROI用非大值抑制算法实现去重,并从最终结果中取出指定个数的ROl用于后续网络的计算。


4、ROI池化:使用区域对齐的方式实现。将第2步的结果当作图片,按照ROl中的区域框位置从图中取出对应的内容,并将形状统一成指定大小,用于后面的计算。


5、最终检测:对第4步的结果依次进行分类、设置矩形坐标、实物像素分割处理,得到最终结果。

目录
相关文章
|
7月前
|
机器学习/深度学习 数据采集 并行计算
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
多步预测系列 | LSTM、CNN、Transformer、TCN、串行、并行模型集合研究(Python代码实现)
844 2
|
7月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
205 1
|
8月前
|
机器学习/深度学习 数据采集 运维
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
基于WOA-CNN-BiLSTM-Attention、CNN-BiLSTM-Attention、WOA-CNN-BiLSTM、CNN-BiLSTM、BiLSTM、CNN6模型单变量时序预测一键对比研究
313 7
|
7月前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
324 0
|
7月前
|
机器学习/深度学习 计算机视觉
基于CNN和大气散射模型的图像去雾
基于CNN和大气散射模型的图像去雾
|
机器学习/深度学习 数据可视化 算法
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
神经常微分方程(Neural ODEs)是深度学习领域的创新模型,将神经网络的离散变换扩展为连续时间动力系统。本文基于Torchdyn库介绍Neural ODE的实现与训练方法,涵盖数据集构建、模型构建、基于PyTorch Lightning的训练及实验结果可视化等内容。Torchdyn支持多种数值求解算法和高级特性,适用于生成模型、时间序列分析等领域。
693 77
PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络
|
8月前
|
机器学习/深度学习 算法 物联网
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
基于WOA-CNN-LSTM-Attention、CNN-LSTM-Attention、WOA-CNN-LSTM、CNN-LSTM、LSTM、CNN6模型多变量时序预测一键对比研究(Matlab代码)
343 0
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
11月前
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
11月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。

热门文章

最新文章

推荐镜像

更多