DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DeepLab v3和DeepLab v3+算法的简介(论文介绍)



DeepLab v3


Abstract  

      In this work, we revisit atrous convolution, a powerful tool  to explicitly adjust filter’s field-of-view as well as control the  resolution of feature responses computed by Deep Convolutional  Neural Networks, in the application of semantic image  segmentation. To handle the problem of segmenting objects  at multiple scales, we design modules which employ atrous  convolution in cascade or in parallel to capture multi-scale  context by adopting multiple atrous rates. Furthermore, we  propose to augment our previously proposed Atrous Spatial  Pyramid Pooling module, which probes convolutional features  at multiple scales, with image-level features encoding  global context and further boost performance. We also elaborate  on implementation details and share our experience  on training our system. The proposed ‘DeepLabv3’ system  significantly improves over our previous DeepLab versions  without DenseCRF post-processing and attains comparable  performance with other state-of-art models on the PASCAL  VOC 2012 semantic image segmentation benchmark.

      在本工作中,我们重新讨论了atrous convolution,这是一个强大的工具,可以显式调整滤波器的视野,并控制深度卷积神经网络计算的特征响应的分辨率,这是在语义图像分割中的应用。针对多尺度目标分割问题,设计了采用级联或并行的无级卷积模块,采用多尺度速率捕获多尺度上下文。此外,我们建议增加先前提出的Atrous空间金字塔池模块,该模块在多个尺度上探测卷积特征,并使用图像级特征编码全局上下文,进一步提高性能。我们也详细阐述了系统的实施细节,并分享了我们在训练系统方面的经验。提出的“DeepLabv3”系统在没有经过DenseCRF后处理的情况下,大大改进了我们之前的DeepLab版本,并在PASCAL VOC 2012语义图像分割基准上取得了与其他先进模型相当的性能。

Conclusion  

      Our proposed model “DeepLabv3” employs atrous convolution  with upsampled filters to extract dense feature maps  and to capture long range context. Specifically, to encode  multi-scale information, our proposed cascaded module gradually  doubles the atrous rates while our proposed atrous spatial  pyramid pooling module augmented with image-level  features probes the features with filters at multiple sampling  rates and effective field-of-views. Our experimental results  show that the proposed model significantly improves over  previous DeepLab versions and achieves comparable performance  with other state-of-art models on the PASCAL VOC  2012 semantic image segmentation benchmark.

      我们提出的“DeepLabv3”模型利用上采样滤波器的卷积来提取密集的特征图,并捕获长范围的上下文。具体来说,为了对多尺度信息进行编码,我们提出的级联模块逐步将atrous速率提高一倍,而我们提出的atrous空间金字塔池模块使用图像级特征增强,探测具有多个采样速率和有效视场的过滤器的特征。实验结果表明,该模型较之前的DeepLab版本有了明显的改进,并在PASCAL VOC 2012语义图像分割基准上取得了与其他现有模型相当的性能。


论文

Liang-ChiehChen, George Papandreou, Florian Schroff, HartwigAdam.

Rethinking AtrousConvolution for Semantic Image Segmentation. CVPR, 2017

https://arxiv.org/abs/1706.05587



DeepLab v3+


Abstract  

      Spatial pyramid pooling module or encode-decoder structure  are used in deep neural networks for semantic segmentation  task. The former networks are able to encode  multi-scale contextual information by probing the incoming  features with filters or pooling operations at multiple rates  and multiple effective fields-of-view, while the latter networks  can capture sharper object boundaries by gradually  recovering the spatial information. In this work, we propose  to combine the advantages from both methods. Specifically,  our proposed model, DeepLabv3+, extends DeepLabv3 by  adding a simple yet effective decoder module to refine the  segmentation results especially along object boundaries. We  further explore the Xception model and apply the depthwise  separable convolution to both Atrous Spatial Pyramid Pooling  and decoder modules, resulting in a faster and stronger  encoder-decoder network. We demonstrate the effectiveness  of the proposed model on the PASCAL VOC 2012 semantic  image segmentation dataset and achieve a performance  of 89% on the test set without any post-processing. Our  paper is accompanied with a publicly available reference  implementation of the proposed models in Tensorflow.

      深度神经网络采用空间金字塔汇聚模块或编码解码器结构进行语义分割。前者通过滤光器探测输入特征或以多种速率和多个有效视场汇聚操作来编码多尺度上下文信息,后者通过逐步恢复空间信息来捕捉更清晰的对象边界。在这项工作中,我们建议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,添加了一个简单而有效的解码器模块来细化分割结果,尤其是沿着对象边界的分割结果。我们进一步探讨了Xception模型,并将深度可分离卷积应用于无源空间金字塔池和解码器模块中,得到了一个更快、更强的编解码器网络。我们在PASCAL VOC 2012语义图像分割数据集上验证了该模型的有效性,在没有任何后处理的情况下,测试集的性能达到89%。我们的论文附带了Tensorflow中提出的模型的公开参考实现。

Conclusion  

      Our proposed model “DeepLabv3+” employs the encoderdecoder  structure where DeepLabv3 is used to encode the  rich contextual information and a simple yet effective decoder  module is adopted to recover the object boundaries.  One could also apply the atrous convolution to extract the  encoder features at an arbitrary resolution, depending on  the available computation resources. We also explore the  Xception model and atrous separable convolution to make  the proposed model faster and stronger. Finally, our experimental  results show that the proposed model sets a new  state-of-the-art performance on the PASCAL VOC 2012  semantic image segmentation benchmark.

      我们提出的模型“DeepLabv3+”采用了encoderdecoder结构,其中DeepLabv3用于编码丰富的上下文信息,并采用一个简单而有效的解码器模块来恢复对象边界。根据可用的计算资源,还可以应用无源卷积以任意分辨率提取编码器的特性。同时,我们还研究了Xception模型和atrous可分离卷积,使所提出的模型更快、更强。最后,我们的实验结果表明,该模型在PASCAL VOC 2012语义图像分割基准上设置了一个新的最先进的性能。


论文

Liang-ChiehChen, YukunZhu, George Papandreou, Florian Schroff, Hartwig Adam.

Encoder-Decoder with AtrousSeparable Convolution for Semantic Image Segmentation. Feb. 2018

https://arxiv.org/abs/1802.02611v1



0、实验结果


1、Performance on PASCAL VOC 2012 test


                                DeepLab v3                                  DeepLab v3+


image.png

2、 DeepLabv3+算法PASCAL VOC 2012


Visualization results on the PASCAL VOC 2012 valset

image.png





DeepLab v3算法的架构详解


更新……


DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的架构详解




DeepLab v3算法的案例应用


更新……


 


相关文章
|
4月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
335 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
4月前
|
机器学习/深度学习 算法 物联网
μNAS:面向微控制器的约束神经架构搜索——论文解读
μNAS是一种专为微控制器设计的神经架构搜索方法,旨在解决物联网设备中资源受限的挑战。通过多目标优化框架,μNAS能够在有限的内存和计算能力下,自动搜索出高效的神经网络结构。该方法结合了老化进化算法与贝叶斯优化,并引入结构化剪枝技术,实现模型压缩。实验表明,μNAS在多个数据集上均取得了优异的精度与资源使用平衡,显著优于现有方法,为边缘计算设备的智能化提供了可行路径。
428 129
|
8月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
3月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
359 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
1254 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
4月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
232 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
4月前
|
机器学习/深度学习 人工智能 资源调度
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
MicroNAS是一种专为微控制器单元(MCU)设计的零样本神经架构搜索(NAS)框架,无需训练即可通过理论驱动的性能指标评估网络架构。相比传统NAS方法,其搜索效率提升高达1104倍,同时兼顾精度与硬件效率,适用于边缘计算场景。该框架结合神经切线核(NTK)条件数、线性区域计数及硬件感知延迟模型,实现快速、高效的架构搜索,为资源受限设备上的AI部署提供了新思路。
294 2
MicroNAS:面向MCU的零样本神经架构搜索——论文阅读
|
7月前
|
缓存 负载均衡 监控
微服务架构下的电商API接口设计:策略、方法与实战案例
本文探讨了微服务架构下的电商API接口设计,旨在打造高效、灵活与可扩展的电商系统。通过服务拆分(如商品、订单、支付等模块)和标准化设计(RESTful或GraphQL风格),确保接口一致性与易用性。同时,采用缓存策略、负载均衡及限流技术优化性能,并借助Prometheus等工具实现监控与日志管理。微服务架构的优势在于支持敏捷开发、高并发处理和独立部署,满足电商业务快速迭代需求。未来,电商API设计将向智能化与安全化方向发展。
484 102
|
4月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
579 0
|
7月前
|
机器学习/深度学习 运维 监控
实时异常检测实战:Flink+PAI 算法模型服务化架构设计
本文深入探讨了基于 Apache Flink 与阿里云 PAI 构建的实时异常检测系统。内容涵盖技术演进、架构设计、核心模块实现及金融、工业等多领域实战案例,解析流处理、模型服务化、状态管理等关键技术,并提供性能优化与高可用方案,助力企业打造高效智能的实时异常检测平台。
644 1

热门文章

最新文章