DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

简介: DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DeepLab v3和DeepLab v3+算法的简介(论文介绍)



DeepLab v3


Abstract  

      In this work, we revisit atrous convolution, a powerful tool  to explicitly adjust filter’s field-of-view as well as control the  resolution of feature responses computed by Deep Convolutional  Neural Networks, in the application of semantic image  segmentation. To handle the problem of segmenting objects  at multiple scales, we design modules which employ atrous  convolution in cascade or in parallel to capture multi-scale  context by adopting multiple atrous rates. Furthermore, we  propose to augment our previously proposed Atrous Spatial  Pyramid Pooling module, which probes convolutional features  at multiple scales, with image-level features encoding  global context and further boost performance. We also elaborate  on implementation details and share our experience  on training our system. The proposed ‘DeepLabv3’ system  significantly improves over our previous DeepLab versions  without DenseCRF post-processing and attains comparable  performance with other state-of-art models on the PASCAL  VOC 2012 semantic image segmentation benchmark.

      在本工作中,我们重新讨论了atrous convolution,这是一个强大的工具,可以显式调整滤波器的视野,并控制深度卷积神经网络计算的特征响应的分辨率,这是在语义图像分割中的应用。针对多尺度目标分割问题,设计了采用级联或并行的无级卷积模块,采用多尺度速率捕获多尺度上下文。此外,我们建议增加先前提出的Atrous空间金字塔池模块,该模块在多个尺度上探测卷积特征,并使用图像级特征编码全局上下文,进一步提高性能。我们也详细阐述了系统的实施细节,并分享了我们在训练系统方面的经验。提出的“DeepLabv3”系统在没有经过DenseCRF后处理的情况下,大大改进了我们之前的DeepLab版本,并在PASCAL VOC 2012语义图像分割基准上取得了与其他先进模型相当的性能。

Conclusion  

      Our proposed model “DeepLabv3” employs atrous convolution  with upsampled filters to extract dense feature maps  and to capture long range context. Specifically, to encode  multi-scale information, our proposed cascaded module gradually  doubles the atrous rates while our proposed atrous spatial  pyramid pooling module augmented with image-level  features probes the features with filters at multiple sampling  rates and effective field-of-views. Our experimental results  show that the proposed model significantly improves over  previous DeepLab versions and achieves comparable performance  with other state-of-art models on the PASCAL VOC  2012 semantic image segmentation benchmark.

      我们提出的“DeepLabv3”模型利用上采样滤波器的卷积来提取密集的特征图,并捕获长范围的上下文。具体来说,为了对多尺度信息进行编码,我们提出的级联模块逐步将atrous速率提高一倍,而我们提出的atrous空间金字塔池模块使用图像级特征增强,探测具有多个采样速率和有效视场的过滤器的特征。实验结果表明,该模型较之前的DeepLab版本有了明显的改进,并在PASCAL VOC 2012语义图像分割基准上取得了与其他现有模型相当的性能。


论文

Liang-ChiehChen, George Papandreou, Florian Schroff, HartwigAdam.

Rethinking AtrousConvolution for Semantic Image Segmentation. CVPR, 2017

https://arxiv.org/abs/1706.05587



DeepLab v3+


Abstract  

      Spatial pyramid pooling module or encode-decoder structure  are used in deep neural networks for semantic segmentation  task. The former networks are able to encode  multi-scale contextual information by probing the incoming  features with filters or pooling operations at multiple rates  and multiple effective fields-of-view, while the latter networks  can capture sharper object boundaries by gradually  recovering the spatial information. In this work, we propose  to combine the advantages from both methods. Specifically,  our proposed model, DeepLabv3+, extends DeepLabv3 by  adding a simple yet effective decoder module to refine the  segmentation results especially along object boundaries. We  further explore the Xception model and apply the depthwise  separable convolution to both Atrous Spatial Pyramid Pooling  and decoder modules, resulting in a faster and stronger  encoder-decoder network. We demonstrate the effectiveness  of the proposed model on the PASCAL VOC 2012 semantic  image segmentation dataset and achieve a performance  of 89% on the test set without any post-processing. Our  paper is accompanied with a publicly available reference  implementation of the proposed models in Tensorflow.

      深度神经网络采用空间金字塔汇聚模块或编码解码器结构进行语义分割。前者通过滤光器探测输入特征或以多种速率和多个有效视场汇聚操作来编码多尺度上下文信息,后者通过逐步恢复空间信息来捕捉更清晰的对象边界。在这项工作中,我们建议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,添加了一个简单而有效的解码器模块来细化分割结果,尤其是沿着对象边界的分割结果。我们进一步探讨了Xception模型,并将深度可分离卷积应用于无源空间金字塔池和解码器模块中,得到了一个更快、更强的编解码器网络。我们在PASCAL VOC 2012语义图像分割数据集上验证了该模型的有效性,在没有任何后处理的情况下,测试集的性能达到89%。我们的论文附带了Tensorflow中提出的模型的公开参考实现。

Conclusion  

      Our proposed model “DeepLabv3+” employs the encoderdecoder  structure where DeepLabv3 is used to encode the  rich contextual information and a simple yet effective decoder  module is adopted to recover the object boundaries.  One could also apply the atrous convolution to extract the  encoder features at an arbitrary resolution, depending on  the available computation resources. We also explore the  Xception model and atrous separable convolution to make  the proposed model faster and stronger. Finally, our experimental  results show that the proposed model sets a new  state-of-the-art performance on the PASCAL VOC 2012  semantic image segmentation benchmark.

      我们提出的模型“DeepLabv3+”采用了encoderdecoder结构,其中DeepLabv3用于编码丰富的上下文信息,并采用一个简单而有效的解码器模块来恢复对象边界。根据可用的计算资源,还可以应用无源卷积以任意分辨率提取编码器的特性。同时,我们还研究了Xception模型和atrous可分离卷积,使所提出的模型更快、更强。最后,我们的实验结果表明,该模型在PASCAL VOC 2012语义图像分割基准上设置了一个新的最先进的性能。


论文

Liang-ChiehChen, YukunZhu, George Papandreou, Florian Schroff, Hartwig Adam.

Encoder-Decoder with AtrousSeparable Convolution for Semantic Image Segmentation. Feb. 2018

https://arxiv.org/abs/1802.02611v1



0、实验结果


1、Performance on PASCAL VOC 2012 test


                                DeepLab v3                                  DeepLab v3+


image.png

2、 DeepLabv3+算法PASCAL VOC 2012


Visualization results on the PASCAL VOC 2012 valset

image.png





DeepLab v3算法的架构详解


更新……


DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的架构详解




DeepLab v3算法的案例应用


更新……


 


相关文章
|
6天前
|
运维 监控 算法
监控局域网其他电脑:Go 语言迪杰斯特拉算法的高效应用
在信息化时代,监控局域网成为网络管理与安全防护的关键需求。本文探讨了迪杰斯特拉(Dijkstra)算法在监控局域网中的应用,通过计算最短路径优化数据传输和故障检测。文中提供了使用Go语言实现的代码例程,展示了如何高效地进行网络监控,确保局域网的稳定运行和数据安全。迪杰斯特拉算法能减少传输延迟和带宽消耗,及时发现并处理网络故障,适用于复杂网络环境下的管理和维护。
|
1天前
|
存储 人工智能 算法
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
阿里云向量检索服务Milvus 2.5版本在全文检索、关键词匹配以及混合检索(Hybrid Search)方面实现了显著的增强,在多模态检索、RAG等多场景中检索结果能够兼顾召回率与精确性。本文将详细介绍如何利用 Milvus 2.5 版本实现这些功能,并阐述其在RAG 应用的 Retrieve 阶段的最佳实践。
通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统
|
11天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
本研究基于MATLAB 2022a,使用GRU网络对QAM调制信号进行检测。QAM是一种高效调制技术,广泛应用于现代通信系统。传统方法在复杂环境下性能下降,而GRU通过门控机制有效提取时间序列特征,实现16QAM、32QAM、64QAM、128QAM的准确检测。仿真结果显示,GRU在低SNR下表现优异,且训练速度快,参数少。核心程序包括模型预测、误检率和漏检率计算,并绘制准确率图。
83 65
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
|
2天前
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-LSTM-SAM网络时间序列预测算法。使用Matlab2022a开发,完整代码含中文注释及操作视频。算法结合卷积层提取局部特征、LSTM处理长期依赖、自注意力机制捕捉全局特征,通过粒子群优化提升预测精度。适用于金融市场、气象预报等领域,提供高效准确的预测结果。
|
2天前
|
算法 数据安全/隐私保护
基于Big-Bang-Big-Crunch(BBBC)算法的目标函数最小值计算matlab仿真
该程序基于Big-Bang-Big-Crunch (BBBC)算法,在MATLAB2022A中实现目标函数最小值的计算与仿真。通过模拟宇宙大爆炸和大收缩过程,算法在解空间中搜索最优解。程序初始化随机解集,经过扩张和收缩阶段逐步逼近全局最优解,并记录每次迭代的最佳适应度。最终输出最佳解及其对应的目标函数最小值,并绘制收敛曲线展示优化过程。 核心代码实现了主循环、粒子位置更新、适应度评估及最优解更新等功能。程序运行后无水印,提供清晰的结果展示。
|
16天前
|
算法
基于遗传优化算法的风力机位置布局matlab仿真
本项目基于遗传优化算法(GA)进行风力机位置布局的MATLAB仿真,旨在最大化风场发电效率。使用MATLAB2022A版本运行,核心代码通过迭代选择、交叉、变异等操作优化风力机布局。输出包括优化收敛曲线和最佳布局图。遗传算法模拟生物进化机制,通过初始化、选择、交叉、变异和精英保留等步骤,在复杂约束条件下找到最优布局方案,提升风场整体能源产出效率。
|
16天前
|
算法 安全 机器人
基于包围盒的机械臂防碰撞算法matlab仿真
基于包围盒的机械臂防碰撞算法通过构建包围盒来近似表示机械臂及其环境中各实体的空间占用,检测包围盒是否相交以预判并规避潜在碰撞风险。该算法适用于复杂结构对象,通过细分目标对象并逐级检测,确保操作安全。系统采用MATLAB2022a开发,仿真结果显示其有效性。此技术广泛应用于机器人运动规划与控制领域,确保机器人在复杂环境中的安全作业。
|
3天前
|
算法 数据挖掘 数据安全/隐私保护
基于CS模型和CV模型的多目标协同滤波跟踪算法matlab仿真
本项目基于CS模型和CV模型的多目标协同滤波跟踪算法,旨在提高复杂场景下多个移动目标的跟踪精度和鲁棒性。通过融合目标间的关系和数据关联性,优化跟踪结果。程序在MATLAB2022A上运行,展示了真实轨迹与滤波轨迹的对比、位置及速度误差均值和均方误差等关键指标。核心代码包括对目标轨迹、速度及误差的详细绘图分析,验证了算法的有效性。该算法结合CS模型的初步聚类和CV模型的投票机制,增强了目标状态估计的准确性,尤其适用于遮挡、重叠和快速运动等复杂场景。
|
1天前
|
算法 数据安全/隐私保护
基于Adaboost的数据分类算法matlab仿真
本程序基于Adaboost算法进行数据分类的Matlab仿真,对比线性与非线性分类效果。使用MATLAB2022A版本运行,展示完整无水印结果。AdaBoost通过迭代训练弱分类器并赋予错分样本更高权重,最终组合成强分类器,显著提升预测准确率。随着弱分类器数量增加,训练误差逐渐减小。核心代码实现详细,适合研究和教学使用。
|
16天前
|
机器学习/深度学习 数据采集 算法
基于WOA鲸鱼优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB 2022a实现时间序列预测,采用CNN-GRU-SAM网络结构,结合鲸鱼优化算法(WOA)优化网络参数。核心代码含操作视频,运行效果无水印。算法通过卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征,全连接层整合输出。数据预处理后,使用WOA迭代优化,最终输出最优预测结果。

热门文章

最新文章