图像分割经典论文调研:DilatedNet、DeepLabV2、HDC/DUC

简介: 引言:本文选取了三篇图像分割初期的经典论文:DilatedNet、DeepLabV2和HDC/DUC,重点关注每篇论文要解决什么问题、针对性提出什么方法、为什么这个方法能解决这个问题

引言:本文选取了三篇图像分割初期的经典论文:DilatedNet、DeepLabV2和HDC/DUC,重点关注每篇论文要解决什么问题、针对性提出什么方法、为什么这个方法能解决这个问题


DilatedNet


章名:《Multi-Scale Context Aggreation By DilatedCNN》

论文下载:https://arxiv.org/abs/1511.07122

官方代码:https://github.com/fyu/dilation


标准卷积(l = 1) 膨胀卷积(l = 2)


1ef5e91ee07c1e3c53eee732a46e876a.pngee10f747bfa96bfe46c022a858989a12.png


解决的问题


图像分类模型通过降低分辨率,来集成上下文信息,直到获取了整幅图像的预测。但这种方法不适用于语义分割,分割任务需要给整张图片的像素输出预测。在先前的工作中,使用了大量的上卷积(恢复丢失的分辨率)和下采样操作(获取全局信息),或者提供图像的多个缩放倍率作为网络的输入,最后整合输出的方式,效果均不佳。


简而言之,就是解决分割任务中图像分辨率必须要缩放的难题


思路和主要过程


1.删除所有池化层和步距层,并用膨胀卷积替代,用来产生更高分辨率的输出

2.因为随机初始化方案对上下文模块并不有效,所以使用输入和输出的通道channels的数量的权重来初始化的方式代替它


主要贡献和启发


  • 膨胀卷积适用于密集像素预测,因为它能在保持分辨率的情况下扩大感受野的范围,如下图:


a785ae75d2b035be21f5e1a77ef64566.png


l=1 (left), l=2 (Middle), l=4 (Right)


  • 基于膨胀卷积设计了上下文模块,保持图像分辨率的同时聚合了上下文信息,并且能做到随插随用


  • 删除了分类网络在分割任务中一些不必要的部分(如池化层、中间特征映射填充等),使网络更高效简洁


DeepLabV2


93bbadf957f8ccd9441d730605d3caff.png


章名:《DeepLab-Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》

论文下载:https://arxiv.org/pdf/1606.00915.pdf

官方代码:http://liangchiehchen.com/projects/DeepLab.html


解决的问题


1.先前的工作重复使用了池化和下采样操作,使得图像分辨率下降

2.物体存在多尺度问题,比如同样的物体,在近处拍摄时物体显得大,远处拍摄时显得小

3.空间不变性导致细节信息丢失,先前的模型可以预测物体的存在和大致位置,但不能真正划定它们的边界


思路和主要过程


1.对于第一个问题:删除下采样,增加上采样,使用膨胀卷积在不降低特征图分辨率的同时获得更大的感受野


2.对于第二个问题:设计一种ASPP模块(Atrous Spatial Pyramid Pooling,空洞空间卷积池化金字塔),并行的采用多个采样率的空洞卷积提取特征,再将特征融合,以此聚合多尺度上下文信息,增强模型识别不同尺寸同一物体的能力


48a48733fa3f1ab4388b80c5465a2f98.png


3.对于第三个问题,使用全连接 CRF(Fully Connected CRF,全连接条件随机场)作为后处理的手段,捕捉边缘等细节信息,对DCNN输出的语义分割图进行优化


主要贡献和启发


  • 膨胀卷积可以有效地扩大滤波器的视野,而不增加参数的数量或计算量


  • 使用ASPP模块,相当于用多个具有视野互补的过滤器探测原始图像,从而在不同尺度上捕捉物体和有用的图像上下文信息


  • 首次使用CRF,CRF不但计算效率高,而且能够捕捉到精细的边缘细节,同时也能有效地利用先验信息


HDC/DUC


文章名:《Understanding Convolution for Semantic Segmentation》

论文下载:https://arxiv.org/abs/1702.08502


官方代码:暂无


解决的问题


1.先前的FCN类网络通过构建更深的网络、改进CRFS两个方向进行改进


2.解码阶段,传统的双线性插值具有不可学习,易丢失细节的缺点


3.编码阶段,使用普通的膨胀卷积会导致网格化问题,即感受野只覆盖一个"棋盘",丢失大量局部信息,同时因为相距过远的像素间无相关性,所以信息冗余


28678ab6002b521696e69dd7f9ce2f0a.png


思路和主要过程


1.另辟新径,采取了改进编解码的方式改善效果


2.解码阶段,采用DUC的方法,即学习如何缩小特征图,恢复为原来的图像,而不是一次性恢复分辨率


add028a3ce6640350a2114ad52de7ae8.png


3.改变卷积方式,使用HDC扩大感受野的范围,解决网格化问题


6c41613a4ebe971d02dac115d0443c3e.png


主要贡献和启发


  • HDC可以解决网格化问题,并且可以使用任意的扩张率,从而自然地扩大网络的感受野,方便识别相对较大的物体。
  • 可以把因为卷积丢失的像素信息转移到通道上,如DUC
相关文章
|
Linux
在 Linux 系统中,“cd”命令用于切换当前工作目录
在 Linux 系统中,“cd”命令用于切换当前工作目录。本文详细介绍了“cd”命令的基本用法和常见技巧,包括使用“.”、“..”、“~”、绝对路径和相对路径,以及快速切换到上一次工作目录等。此外,还探讨了高级技巧,如使用通配符、结合其他命令、在脚本中使用,以及实际应用案例,帮助读者提高工作效率。
870 3
|
Kubernetes 应用服务中间件 nginx
Kubernetes上安装Metallb和Ingress并部署应用程序
Kubernetes上安装Metallb和Ingress并部署nginx应用程序,使用LoadBalancer类型的KubernetesService
913 108
|
存储 JavaScript API
Vuex的魔法宝典:掌握State, Getters, Mutations和Actions,让状态管理不再是难题
【8月更文挑战第27天】Vuex是Vue.js应用程序的状态管理工具,通过集中式存储管理组件状态并确保状态按照预定义的规则发生变化。
377 0
|
jenkins 持续交付 开发工具
除了 Gitee,还有哪些代码托管平台支持 Webhook?
除了 Gitee,还有哪些代码托管平台支持 Webhook?
|
存储 自然语言处理 数据可视化
3倍提升效率:医疗病理信息抽取与关系图谱展示系统解析
该项目旨在通过NLP技术将医疗病理报告中的非结构化文本转化为结构化数据,实现信息的高效抽取、存储及可视化展示。利用Python、JavaScript等技术栈,结合Echarts等工具,构建病理信息的关系图谱,支持多条件检索与图表互动,提高医生及研究人员的工作效率。预期成果包括数据结构化、关系图谱可视化、快速检索及数据统计分析等功能。项目预计2-4周完成。
234 0
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 注意力机制 | 添加混合局部通道注意力——MLCA【原理讲解】
YOLOv8专栏介绍了混合局部通道注意力(MLCA)模块,它结合通道、空间和局部信息,提升目标检测性能,同时保持低复杂度。文章提供MLCA原理、代码实现及如何将其集成到YOLOv8中,助力读者实战深度学习目标检测。[YOLOv8改进——更新各种有效涨点方法](https://blog.csdn.net/m0_67647321/category_12548649.html)
|
缓存 NoSQL 关系型数据库
MySQL与Redis的默契协作:解析数据一致性难题与解决方案
MySQL与Redis的默契协作:解析数据一致性难题与解决方案
506 0
MySQL与Redis的默契协作:解析数据一致性难题与解决方案
|
存储 算法 Java
高度平衡的二叉搜索树简介
什么是一个高度平衡的二叉搜索树? 树结构中的常见用语: 节点的深度 - 从树的根节点到该节点的边数 节点的高度 - 该节点和叶子之间最长路径上的边数 树的高度 - 其根节点的高度 一个高度平衡的二叉搜索树(平衡二叉搜索树)是在插入和删除任何节点之后,可以自动保持其高度最小。也就是说,有 N 个节点的平衡二叉搜索树,它的高度是 logN 。并且,每个节点的两个子树的高度不会相差超过 1。 为什么是 logN 呢? 一个高度为 h 的二叉树 .换言之,一个有 N 个节点,且高度为 h 的二叉树 所以根据定义, 我们可以判断出一个二叉搜索树是否是高度平衡的 (平衡二叉树)。 正如我们之前提到的
335 0
|
消息中间件 设计模式 缓存
Redis发布订阅(广播)
学校时期,学级主任为了提高整个学级学生的写作能力,会要求我们订阅一些周刊例如《读者》《意林》。
294 0
|
机器学习/深度学习 人工智能 自然语言处理
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
907 0