DL之DeepLabv2:DeepLab v2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: DL之DeepLabv2:DeepLab v2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DeepLab v2算法的简介(论文介绍)


     DeepLabv2是DeepLabv1的改进版本,改进的不多,主要是用多尺度提取获得更好的分割效果。


Abstract

      In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions  that are experimentally shown to have substantial practical merit. First, we highlight convolution with upsampled filters, or  ‘atrous convolution’, as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at  which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of  view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second, we  propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional  feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at  multiple scales. Third, we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical  models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on  localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional  Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed  “DeepLab” system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7% mIOU in  the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code  is made publicly available online.

      本文研究了基于深度学习的语义图像分割问题,并提出了三个具有实际应用价值的主要研究方向。首先,我们强调卷积与上采样滤波器,或“atrous卷积”,在密集预测任务中是一个强大的工具。Atrous卷积允许我们显式地控制在深度卷积神经网络中计算特征响应的分辨率。它还允许我们有效地扩大过滤器的视野,在不增加参数数量或计算量的情况下合并更大的上下文。其次,提出了一种基于空间金字塔池化 (ASPP)的多尺度鲁棒分割方法。ASPP使用多个采样速率的过滤器和有效的视图字段探测传入的卷积特征层,从而在多个尺度上捕获对象和图像上下文。第三,结合DCNNs方法和概率图形模型,改进了目标边界的定位。DCNNs中常用的最大池和下采样的组合实现了不变性,但对定位精度有一定的影响。我们通过将DCNN最后一层的响应与一个完全连接的条件随机场(CRF)相结合来克服这个问题,该条件随机场在定性和定量上都显示出来,以提高定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中设置了新的技术状态,在测试集中达到了79.7%的mIOU,并在其他三个数据集:PASCAL-Context, PASCAL-Person-Part,和Cityscapes上提出了结果。我们所有的代码都在网上公开。

CONCLUSION

      Our proposed “DeepLab” system re-purposes networks  trained on image classification to the task of semantic segmentation  by applying the ‘atrous convolution’ with upsampled  filters for dense feature extraction. We further extend it  to atrous spatial pyramid pooling, which encodes objects as  well as image context at multiple scales. To produce semantically  accurate predictions and detailed segmentation maps  along object boundaries, we also combine ideas from deep  convolutional neural networks and fully-connected conditional  random fields. Our experimental results show that  the proposed method significantly advances the state-ofart  in several challenging datasets, including PASCAL VOC  2012 semantic image segmentation benchmark, PASCALContext,  PASCAL-Person-Part, and Cityscapes datasets.

      我们提出的“DeepLab”系统将训练有素的图像分类网络重新用于语义分割任务,利用带上采样滤波器的“atrous convolution”进行密集特征提取。我们进一步将其扩展到空间金字塔池,它在多个尺度上编码对象和图像上下文。为了产生精确的语义预测和沿着目标边界的详细分割地图,我们还结合了深度卷积神经网络和全连通条件随机域的思想。实验结果表明,该方法在PASCAL VOC 2012语义图像分割基准测试、PASCALContext,  PASCAL-Person-Part和Cityscapes数据集等多个具有挑战性的数据集上都取得了显著的进步。


论文

Liang-ChiehChen, George Papandreou, IasonasKokkinos, Kevin Murphy, Alan L. Yuille.

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, AtrousConvolution,

and Fully Connected CRFs.

IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 40 , Issue: 4 , April 1 2018 )应该是2017

https://arxiv.org/abs/1606.00915



0、实验结果


1、基于VGG-16的DeepLabmodel中,ASPP对PASCAL VOC 2012 valset性能(平均IOU)的影响。


Effect of ASPP on PASCAL VOC 2012 valset performance (mean IOU) for VGG-16 based DeepLabmodel.




LargeFOV: single branch, r = 12 .

ASPP-S: four branches, r= { 2, 4, 8, 12 } .

ASPP-L: four branches, r = { 6, 12, 18, 24 } .

多尺度+大感受野可显著提高语义分割效果


2、PASCAL VOC 2012 valresults输入图像和论文中的DeepLabresults之前/之后的CRF


PASCAL VOC 2012 valresults. Input image and our DeepLabresults before/after CRF


image.png


3、ASPP与基线LargeFOV模型进行定性分割


Qualitative segmentation results with ASPP compared to the baseline LargeFOV model.

采用多个大FOV的ASPP-L模型可以成功捕获多个尺度的目标和图像上下文。


image.png


4、PASCAL VOC 2012测试集性能


Performance on PASCAL VOC 2012 test set

在NVidia Titan X GPU 上运行速度达到了8FPS,全连接CRF 平均推断需要0.5s ,在耗时方面和DeepLab-v1无差异,但在PASCAL VOC-2012 达到79.7 mIOU。


image.png



1、DeepLab-v2 改进点


(1)、用多尺度特征提取获得更好的分割效果


目标存在多尺度的问题,DeepLabv1中是用多个MLP结合多尺度特征解决,虽然可以提升系统的性能,但是增加了特征计算量和存储空间。

受到SpatialPyramidPooling(SPP)的启发,提出了一个类似的结构,在给定的输入上以不同采样率的空洞卷积并行采样,相当于以多个尺度捕捉图像的上下文,称为ASPP(atrousspatialpyramidpooling)模块。





DeepLab v2算法的架构详解


更新……





DeepLab v2算法的案例应用


更新……



相关文章
架构学习:7种负载均衡算法策略
四层负载均衡包括数据链路层、网络层和应用层负载均衡。数据链路层通过修改MAC地址转发帧;网络层通过改变IP地址实现数据包转发;应用层有多种策略,如轮循、权重轮循、随机、权重随机、一致性哈希、响应速度和最少连接数均衡,确保请求合理分配到服务器,提升性能与稳定性。
301 11
架构学习:7种负载均衡算法策略
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
273 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
107 14
后端架构演进:微服务架构的优缺点与实战案例分析
【10月更文挑战第28天】本文探讨了微服务架构与单体架构的优缺点,并通过实战案例分析了微服务架构在实际应用中的表现。微服务架构具有高内聚、低耦合、独立部署等优势,但也面临分布式系统的复杂性和较高的运维成本。通过某电商平台的实际案例,展示了微服务架构在提升系统性能和团队协作效率方面的显著效果,同时也指出了其带来的挑战。
129 4
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(下)
70 0
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)
计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23(上)
52 0
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
86 3
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
从单体到微服务:如何借助 Spring Cloud 实现架构转型
**Spring Cloud** 是一套基于 Spring 框架的**微服务架构解决方案**,它提供了一系列的工具和组件,帮助开发者快速构建分布式系统,尤其是微服务架构。
321 69
从单体到微服务:如何借助 Spring Cloud 实现架构转型

热门文章

最新文章