语义分割新SOTA | 当UNet与HRNet碰撞会产生怎样的火花?U-HRNet不做选择!!!

本文涉及的产品
通用文字识别,通用文字识别 200次/月
小语种识别,小语种识别 200次/月
自定义KV模板,自定义KV模板 500次/账号
简介: 语义分割新SOTA | 当UNet与HRNet碰撞会产生怎样的火花?U-HRNet不做选择!!!

高分辨率和高级语义表示对于密集预测都至关重要。从经验上看,低分辨率特征地图通常实现更强的语义表示,而高分辨率特征地图一般可以更好地识别边缘等局部特征,但包含较弱的语义信息。现有的最先进的框架(如HRNet)保持了低分辨率和高分辨率特征地图的并行性,并在不同分辨率之间反复交换信息。然而,我们认为,最低分辨率的特征地图往往包含最强的语义信息,需要经过更多层才能与高分辨率特征地图合并,而对于高分辨率特征图,每个卷积层的计算成本非常大,不需要经过这么多层。因此,我们设计了一个U形高分辨率网络(U-HRNet),它在语义表示最强的特征图之后添加更多的阶段,并放松了HRNet中的约束,即新添加的阶段需要并行计算所有分辨率。为低分辨率特征图分配了更多计算,这大大改善了整体语义表示。U-HRNetHRNet主干的替代品,可以在完全相同的训练和推理设置下,在多个语义分割和深度预测数据集上实现显著改进,而计算量几乎没有增加。

代码可从PaddleSeg获取:https://github.com/PaddlePaddle/PaddleSeg


1、简介


密集的预测任务,包括语义分割和深度估计等,是视觉理解系统的重要组成部分。密集预测任务需要预测像素级类别标签或回归特定值,这比图像级预测任务更具挑战性。同时保持高分辨率和强语义信息是有效处理密集预测任务的关键。高分辨率可确保最终预测粒度尽可能接近像素级别,并可获得更精确的局部判别,例如更精确的边缘。强大的语义信息确保了整体预测的准确性,特别是对于难以区分或面积较大的实例。

深度卷积神经网络,如U-NetDeepLabHRNet,在FCN的设计之后,在密集预测任务中取得了令人兴奋的结果。特别是高分辨率网络(HRNet)在密集预测任务中取得了最先进的结果,例如语义分割、人体姿势估计等。HRNet能够学习高分辨率表示,同时确保低分辨率特征图和高分辨率特征图之间的语义信息传输。

然而,作者发现HRNet仍有很大的改进空间。经常可以看到大面积的区域被错误地分类。例如,在图1中,第2行显示HRNet的结果。在图1(a)和(b)中,整个实例被错误分类,而在(c)中,一个大面积实例中的一些块被错误分类。这表明HRNet实现的语义表示仍然不够好。作者认为,这可能归因于HRNet的宏观结构,可以概括为以下两个方面:

  1. HRNet最低分辨率分支的最终块具有最强的语义表示,直接输出,而不完全传播到更高分辨率分支。
  2. HRNet的低分辨率分支不够深入,使得网络的语义能力受到限制。然而,由于计算成本的显著增加,在HRNet的最后两个阶段为更深的网络增加模块数显然是不可取的。

U-Net在一定程度上缓解了上述两个问题。然而,在U-Net中,每个阶段只保留一个分辨率,不同尺度之间没有融合,只有与残差分支合并。作者认为,HRNet的最大优势是能够并行维护多尺度并始终执行多尺度融合。

为了在不增加额外计算成本的情况下改进高分辨率网络的整体语义表示,作者提出了一种简单有效的网络,称为U形高分辨率网络(U-HRNet)。它继承了UNet的编解码器结构,有利于从最强语义特征映射到最高分辨率特征映射的嵌入传播。同时,它完美地保留了HRNet的优点,保持了多尺度并行,并始终执行多尺度融合。

此外,它减少了高分辨率分支上的块数,并将其计算重新分配给低分辨率分支,以获得更大的语义容量,而无需添加更多计算。如图1所示可以看到U-HRNet在困难对象和大面积实例的语义表示方面比HRNet更具优势。幸运的是,U-HRNet也与OCR头一起工作得很好,因为U-HRNet专注于提高整个网络的语义能力,这与OCR的优势没有重叠,OCR旨在借助对象和类别之间的语义关系更好地标记。

因此,本文的贡献有两点。

  1. 提出了一种简单有效的网络U-HRNet,它在密集预测任务上的性能优于HRNet而计算量几乎没有增加。
  2. U-HRNetOCR的结合为多个语义分割数据集设置了新的技术水平。

2、U型高分辨率网络


2.1、Review of HRNet

HRNet是一种用于人体姿态估计的优秀神经网络。之后,进一步证明了HRNet可以很好地处理其他许多任务,如目标检测、语义分割。由此可见,HRNet不仅在高级语义表示方面很强,而且在低级空间细节方面也很强。如图2(a)所示,1/4分辨率从网络的开始到结束都是一致的,随着网络深度的增加,语义表示学习增加了更多的低分辨率,从而通过多分辨率融合提高了高分辨率表示。

image.png

然而,HRNet对于一些密集的预测任务可能并不完美。例如,语义分割是一个典型的密集分类任务,为了帮助像素预测其语义类别,引入高级全局信息非常重要。从这个角度来看发现HRNet有以下几个缺点:

  1. 具有最强语义表示的1/32分辨率分支的最后一个块直接输出,而没有得到充分利用。
  2. 高分辨率和低分辨率分支之间的计算分配没有优化,应更多关注语义表示强的低分辨率分支。

2.2、Architecture of U-HRNet

1、主体结构

image.png

HRNet之后,将图像输入到一个干块中,将分辨率降低到1/4,主体输出与1/4分辨率相同的特征图。图2(c)显示了U-HRNet的主体。与U-Net一样,其布局如图2(b)所示,主体在宏观范围内似乎是U形网络,而在微观范围内,它由几个hr模块组成。然而,每个hr模块由不超过两个分辨率分支组成。这种设计方式旨在解决第3.1节中提到的HRNet的缺点。重组的细节如下所述。

  • 首先,删除了HRNet最后两个阶段的高分辨率分支(阶段3和阶段4的1/4分辨率分支,阶段4的1/8分辨率分支),这使得许多计算被释放。
  • 然后,为了改进高分辨率输出的语义表示,在最低分辨率阶段之后添加了几个阶段。这些阶段逐渐对要素图进行上采样,并与之前阶段特征合并。这使得最低分辨率阶段输出的语义表示最强的特征可以更早地与low-level高分辨率特征合并,从而通过充分分析最强的表示,后续阶段能够更精确地推断空间细节。

最后,在不同阶段重新安排表征模块。在低分辨率阶段增加了模块,而在高分辨率阶段减少了模块,这在很大程度上改善了语义表示。此外,添加了一个具有1/32和1/64分辨率分支的stage,以生成更丰富的语义表示,而无需添加额外的更高分辨率分支。与UNet类似,在网络的深度方向上设置了几个Shortcut,分别连接第2阶段和第8阶段、第3阶段和第7阶段、第4阶段和第6阶段。这些Shortcut使网络可以同时利用High-Level特征和Low-Level特征,同时使渐变可以直接传播到前面的阶段。

2、融合模块

对应于主体中的Shortcut,在第8阶段、第7阶段和第6阶段之前有三个融合模块,分别将第2阶段、第3阶段和第4阶段的高分辨率分支输出的Low-Level特征与第7阶段、第6阶段和第5阶段的高分辨分支的上采样特征合并。

直觉上,可以简单地应用高分辨率模块中使用的融合方法,即添加两个输入特征,然后执行ReLU函数进行激活,如图3中的fusion a所示。然而,假设根据U-Net的融合方法连接两个输入特征可以增强网络的连通性。因此,首先将核大小为2的通道维度上的两个输入特性合并在一起,然后将它们作为输出特性在通道之间连接起来,如图3的Fusion B所示。

3、表征Head

对于表征Head,基本遵循HRNetV2。输出的多分辨率特征来自阶段5、阶段6、阶段7、阶段8和阶段9的较低分辨率分支。但是,由于增加了1/64分辨率,U-HRNet表征头中卷积的输入通道数是HRNetV2的两倍。为了保持与HRNetV1表征头类似的计算成本,通过一个核大小为2的池化操作传递多分辨率特性,然后将它们连接到通道维度中,作为表征头的输入。

2.3、Instantiation

U-HRNet的主体包含9个阶段和5个分辨率流。分辨率为1/4、1/8、1/16、1/32、1/64。第一阶段包含1个分支hr模块,由4个瓶颈残差块组成,每个块的宽度为64,然后是一个3×3卷积,将特征图的宽度更改为C,表示为1/4分辨率流的宽度。第2至第8阶段分别包含1、5、2、2、1、1、1hr模块。所有这些模块都由两个分支组成,每个分支由4个基本残差块组成。与第一阶段一样,最后一阶段也包含1个分支hr模块,而该模块由4个基本残差块组成。最后,五个分辨率流的卷积宽度分别为C、2C、4C、8C和16C。

U-HRNet的布局如图2(c)所示。此外,与U-HRNet相比,U-HRNet-slim有两点不同,

  1. 第三阶段由2hr模块组成,而其他阶段与U-HRNet相同
  2. U-HRNet-small的hr模块中的所有分支都包含2个瓶颈块或基本块。

2.4、分析

U-HRNet中,除了第一级和最后一级之外,主要采用两个分支hr模块作为组成网络的基本单元,而不是HRNet使用的多分辨率(两个或多个)并行卷积和U-Net中的一个分支卷积序列。它带来了一些有助于改进语义表示的好处。

HRNet相比,这两个分支hr模块放宽了在一定阶段内所有分辨率都需要并行计算的限制,同时又不失多分辨率推理的优势。这使得U-HRNet可以在低分辨率分支上附加比HRNet更多的计算,并进一步改进最强的语义表示。

U-Net相比,双分支hr模块在多尺度表示学习上明显优于单分支卷积序列。此外,当进入下一个分辨率时,无论是下采样还是上采样,U-HRNet都会继续保持之前的一个分辨率,并不断融合两个分辨率的特性。这使得网络能够充分利用之前学习到的信息,同时避免因分辨率变化而导致的空间或语义知识的丢失。


3、实验


3.1、消融实验

3.2、SOTA对比


4、参考


[1].U-HRNet: Delving into Improving Semantic Representation of High Resolution Network for Dense Prediction.


5、推荐阅读


SSD没有错付 | SSD改进版本来啦!PSSD携实时性与高精度归来!

3D目标检测最强部署教程 | 一份复杂ONNX的部署解决方案(附源码+PPT)

全新Backbone | 超越PvT,TWins等方法,ECOFormer使用哈希注意力成就高峰!

相关文章
|
7月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
|
机器学习/深度学习 PyTorch 算法框架/工具
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
【论文泛读】 ResNeXt:深度神经网络的聚合残差变换(ResNet的改进,提出了一种新的维度)
|
3月前
|
机器学习/深度学习 搜索推荐
CIKM 2024:LLM蒸馏到GNN,性能提升6.2%!Emory提出大模型蒸馏到文本图
【9月更文挑战第17天】在CIKM 2024会议上,Emory大学的研究人员提出了一种创新框架,将大型语言模型(LLM)的知识蒸馏到图神经网络(GNN)中,以克服文本图(TAGs)学习中的数据稀缺问题。该方法通过LLM生成文本推理,并训练解释器模型理解这些推理,再用学生模型模仿此过程。实验显示,在四个数据集上性能平均提升了6.2%,但依赖于LLM的质量和高性能。论文链接:https://arxiv.org/pdf/2402.12022
85 7
|
6月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
76 6
|
7月前
|
人工智能 计算机视觉
论文介绍:MDTv2——提升图像合成能力的掩码扩散变换器
【5月更文挑战第18天】MDTv2是掩码扩散变换器的升级版,旨在增强图像合成模型DPMs处理语义关系的能力。通过掩码操作和不对称扩散变换,MDTv2能学习图像的完整语义信息,提升学习效率和图像质量。MDTv2采用优化的网络结构和训练策略,如长快捷方式、密集输入和时间步适应损失权重,实现SOTA性能,FID分数达到1.58,训练速度比DiT快10倍。尽管计算成本高和泛化能力待验证,MDTv2为图像合成领域开辟了新方向。[链接: https://arxiv.org/abs/2303.14389]
188 1
|
7月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
405 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
7月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
267 0
|
7月前
|
机器学习/深度学习 编解码
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
315 0
|
机器学习/深度学习 编解码 算法
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
761 0
论文阅读笔记 | 目标检测算法——DCN(可变形卷积网络)
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等