DL之SegNet:SegNet图像分割算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略(一)

简介: DL之SegNet:SegNet图像分割算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

SegNet图像分割算法的简介(论文介绍)


更新……


Abstract

      We present a novel and practical deep fully convolutional neural network architecture for semantic pixel-wise segmentation  termed SegNet. This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed  by a pixel-wise classification layer. The architecture of the encoder network is topologically identical to the 13 convolutional layers in the  VGG16 network [1]. The role of the decoder network is to map the low resolution encoder feature maps to full input resolution feature  maps for pixel-wise classification. The novelty of SegNet lies is in the manner in which the decoder upsamples its lower resolution input  feature map(s). Specifically, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to  perform non-linear upsampling. This eliminates the need for learning to upsample. The upsampled maps are sparse and are then  convolved with trainable filters to produce dense feature maps. We compare our proposed architecture with the widely adopted FCN [2]  and also with the well known DeepLab-LargeFOV [3], DeconvNet [4] architectures. This comparison reveals the memory versus  accuracy trade-off involved in achieving good segmentation performance.  SegNet was primarily motivated by scene understanding applications. Hence, it is designed to be efficient both in terms of memory and  computational time during inference. It is also significantly smaller in the number of trainable parameters than other competing  architectures and can be trained end-to-end using stochastic gradient descent. We also performed a controlled benchmark of SegNet  and other architectures on both road scenes and SUN RGB-D indoor scene segmentation tasks. These quantitative assessments  show that SegNet provides good performance with competitive inference time and most efficient inference memory-wise as compared  to other architectures. We also provide a Caffe implementation of SegNet and a web demo at

http://mi.eng.cam.ac.uk/projects/segnet/.

      本文提出了一种新颖实用的深度全卷积神经网络结构——SegNet。该核心的可训练分割引擎由编码器网络、相应的解码器网络和像素级分类层组成。编码器网络的结构在拓扑上与VGG16网络[1]中的13个卷积层相同。解码器网络的作用是将编码器的低分辨率特征映射为全输入分辨率特征映射,进行像素级分类。SegNet lies的新颖之处在于解码器向上采样其低分辨率输入特征图的方式。具体地说,解码器使用在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这消除了学习向上采样的需要。上采样后的图像是稀疏的,然后与可训练滤波器进行卷积,生成密集的特征图。我们将我们提出的体系结构与广泛采用的FCN[2]以及著名的DeepLab-LargeFOV[3]、DeconvNet[4]体系结构进行了比较。这个比较揭示了在获得良好的分割性能时所涉及的内存和精度之间的权衡。SegNet主要是由场景理解应用程序驱动的。因此,它的设计在内存和推理过程中的计算时间方面都是高效的。它在可训练参数的数量上也明显小于其他竞争架构,并且可以使用随机梯度下降进行端到端训练。我们还在道路场景和SUN RGB-D室内场景分割任务上对SegNet等架构进行了受控基准测试。这些定量评估表明,与其他体系结构相比,SegNet具有良好的性能,推理时间有竞争力,并且在内存方面推理效率最高。我们还提供了一个Caffe实现SegNet和一个web demo at

http://mi.eng.cam.ac.uk/projects/segnet/

CONCLUSION  

      We presented SegNet, a deep convolutional network architecture  for semantic segmentation. The main motivation behind SegNet  was the need to design an efficient architecture for road and indoor  scene understanding which is efficient both in terms of memory  and computational time. We analysed SegNet and compared it  with other important variants to reveal the practical trade-offs  involved in designing architectures for segmentation, particularly  training time, memory versus accuracy. Those architectures which store the encoder network feature maps in full perform best but  consume more memory during inference time. SegNet on the  other hand is more efficient since it only stores the max-pooling  indices of the feature maps and uses them in its decoder network  to achieve good performance. On large and well known datasets  SegNet performs competitively, achieving high scores for road  scene understanding. End-to-end learning of deep segmentation  architectures is a harder challenge and we hope to see more  attention paid to this important problem.

      本文提出了一种用于语义分割的深度卷积网络结构SegNet。SegNet背后的主要动机是需要为道路和室内场景理解设计一个高效的架构,它在内存和计算时间方面都是高效的。我们分析了SegNet,并将其与其他重要的变体进行了比较,以揭示在设计用于分割的架构时所涉及的实际权衡,尤其是训练时间、内存和准确性。那些完全存储编码器网络特征映射的架构执行得最好,但在推理期间消耗更多内存。另一方面,SegNet更高效,因为它只存储特征映射的最大池索引,并将其用于解码器网络中,以获得良好的性能。在大型和知名的数据集上,SegNet表现得很有竞争力,在道路场景理解方面获得了高分。深度分割体系结构的端到端学习是一个比较困难的挑战,我们希望看到更多的人关注这个重要的问题。


论文

Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation,

IEEE Transactions on Pattern Analysis and Machine Intelligence ( Volume: 39 , Issue: 12 , Dec. 1 2017 )

https://arxiv.org/abs/1511.00561


《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》

arXiv地址:https://arxiv.org/abs/1511.00561?context=cs

PDF地址:https://arxiv.org/pdf/1511.00561.pdf

Vijay Badrinarayanan, Kendall, and Roberto Cipolla(2015): SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. arXiv preprint arXiv:1511.00561 (2015).






相关文章
|
2月前
|
存储 机器学习/深度学习 编解码
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
本文提出统一相位正交啁啾分复用(UP-OCDM)方案,利用循环矩阵特性设计两种低复杂度均衡算法:基于带状近似的LDL^H分解和基于BEM的迭代LSQR,将复杂度由$O(N^3)$降至$O(NQ^2)$或$O(iNM\log N)$,在双选择性信道下显著提升高频谱效率与抗多普勒性能。
208 0
双选择性信道下正交啁啾分复用(OCDM)的低复杂度均衡算法研究——论文阅读
|
3月前
|
传感器 资源调度 算法
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
本文提出一种多子带相干累积(MSCA)算法,通过引入空带和子带相干处理,解决DDMA-MIMO雷达的多普勒模糊与能量分散问题。该方法在低信噪比下显著提升检测性能,实测验证可有效恢复目标速度,适用于车载雷达高精度感知。
536 4
DDMA-MIMO雷达多子带相干累积目标检测算法——论文阅读
|
2月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
274 6
|
3月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
3月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
469 0
|
3月前
|
机器学习/深度学习 算法 算法框架/工具
256KB内存约束下的设备端训练:算法与系统协同设计——论文解读
MIT与MIT-IBM Watson AI Lab团队提出一种创新方法,在仅256KB SRAM和1MB Flash的微控制器上实现深度神经网络训练。该研究通过量化感知缩放(QAS)、稀疏层/张量更新及算子重排序等技术,将内存占用降至141KB,较传统框架减少2300倍,首次突破设备端训练的内存瓶颈,推动边缘智能发展。
276 6
|
2月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。
|
2月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
276 0
|
2月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
208 2
|
3月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
226 3

热门文章

最新文章