DL之DeepLabv2:DeepLab v2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: DL之DeepLabv2:DeepLab v2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DeepLab v2算法的简介(论文介绍)


     DeepLabv2是DeepLabv1的改进版本,改进的不多,主要是用多尺度提取获得更好的分割效果。


Abstract

      In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions  that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or  ‘atrous convolution’, as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at  which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of  view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second, we  propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional  feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at  multiple scales. Third, we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical  models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on  localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional  Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed  “DeepLab” system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7% mIOU in  the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code  is made publicly available online.

      本文研究了基于深度学习的语义图像分割问题,并提出了三个具有实际应用价值的主要研究方向。首先,我们强调卷积与上采样滤波器,或“atrous卷积”,在密集预测任务中是一个强大的工具。Atrous卷积允许我们显式地控制在深度卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大过滤器的视野,在不增加参数数量或计算量的情况下合并更大的上下文。其次,提出了一种基于空间金字塔池化 (ASPP)的多尺度鲁棒分割方法。ASPP使用多个采样速率的过滤器和有效的视图字段探测传入的卷积特征层,从而在多个尺度上捕获对象和图像上下文。第三,结合DCNNs方法和概率图形模型,改进了目标边界的定位。DCNNs中常用的最大池和下采样的组合实现了不变性,但对定位精度有一定的影响。我们通过将DCNN最后一层的响应与一个完全连接的条件随机场(CRF)相结合来克服这个问题,该条件随机场在定性和定量上都显示出来,以提高定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中设置了新的技术状态,在测试集中达到了79.7%的mIOU,并在其他三个数据集:PASCAL-Context, PASCAL-Person-Part,和Cityscapes上提出了结果。我们所有的代码都在网上公开。

CONCLUSION

      Our proposed “DeepLab” system re-purposes networks  trained on image classification to the task of semantic segmentation  by applying the ‘atrous convolution’ with upsampled  filters for dense feature extraction. We further extend it  to atrous spatial pyramid pooling, which encodes objects as  well as image context at multiple scales. To produce semantically  accurate predictions and detailed segmentation maps  along object boundaries, we also combine ideas from deep  convolutional neural networks and fully-connected conditional  random fields. Our experimental results show that  the proposed method significantly advances the state-ofart  in several challenging datasets, including PASCAL VOC  2012 semantic image segmentation benchmark, PASCALContext,  PASCAL-Person-Part, and Cityscapes datasets.

      我们提出的“DeepLab”系统将训练有素的图像分类网络重新用于语义分割任务,利用带上采样滤波器的“atrous convolution”进行密集特征提取。我们进一步将其扩展到空间金字塔池,它在多个尺度上编码对象和图像上下文。为了产生精确的语义预测和沿着目标边界的详细分割地图,我们还结合了深度卷积神经网络和全连通条件随机域的思想。实验结果表明,该方法在PASCAL VOC 2012语义图像分割基准测试、PASCALContext,  PASCAL-Person-Part和Cityscapes数据集等多个具有挑战性的数据集上都取得了显著的进步。


论文

Liang-ChiehChen, George Papandreou, IasonasKokkinos, Kevin Murphy, Alan L. Yuille.

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, AtrousConvolution,

and Fully Connected CRFs.

IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 40 , Issue: 4 , April 1 2018 )应该是2017

https://arxiv.org/abs/1606.00915



0、实验结果


1、基于VGG-16的DeepLabmodel中,ASPP对PASCAL VOC 2012 valset性能(平均IOU)的影响。


Effect of ASPP on PASCAL VOC 2012 valset performance (mean IOU) for VGG-16 based DeepLabmodel.




LargeFOV: single branch, r = 12 .

ASPP-S: four branches, r= { 2, 4, 8, 12 } .

ASPP-L: four branches, r = { 6, 12, 18, 24 } .

多尺度+大感受野可显著提高语义分割效果


2、PASCAL VOC 2012 valresults输入图像和论文中的DeepLabresults之前/之后的CRF


PASCAL VOC 2012 valresults. Input image and our DeepLabresults before/after CRF


image.png


3、ASPP与基线LargeFOV模型进行定性分割


Qualitative segmentation results with ASPP compared to the baseline LargeFOV model.

采用多个大FOV的ASPP-L模型可以成功捕获多个尺度的目标和图像上下文。


image.png


4、PASCAL VOC 2012测试集性能


Performance on PASCAL VOC 2012 test set

在NVidia Titan X GPU 上运行速度达到了8FPS,全连接CRF 平均推断需要0.5s ,在耗时方面和DeepLab-v1无差异,但在PASCAL VOC-2012 达到79.7 mIOU。


image.png



1、DeepLab-v2 改进点


(1)、用多尺度特征提取获得更好的分割效果


目标存在多尺度的问题,DeepLabv1中是用多个MLP结合多尺度特征解决,虽然可以提升系统的性能,但是增加了特征计算量和存储空间。

受到SpatialPyramidPooling(SPP)的启发,提出了一个类似的结构,在给定的输入上以不同采样率的空洞卷积并行采样,相当于以多个尺度捕捉图像的上下文,称为ASPP(atrousspatialpyramidpooling)模块。





DeepLab v2算法的架构详解


更新……





DeepLab v2算法的案例应用


更新……



相关文章
|
7月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
400 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
6月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
563 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
7月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
293 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
7月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
421 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
1230 0
|
6月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
583 0
|
6月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
378 2
|
7月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
322 3
|
6月前
|
机器学习/深度学习 算法 机器人
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
使用哈里斯角Harris和SIFT算法来实现局部特征匹配(Matlab代码实现)
289 8
|
6月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
338 8

热门文章

最新文章