HR-Former | 随迟但到,HRNet+Transformer轻装归来(非常值得学习!!!)(一)

简介: HR-Former | 随迟但到,HRNet+Transformer轻装归来(非常值得学习!!!)(一)

1简介


Vision Transformer (ViT)在ImageNet分类任务中显示了良好的性能。后续的许多工作通过知识蒸馏、采用更深层次的体系结构、直接引入卷积运算、重新设计输入图像Tokens等来提高分类精度。此外,一些研究试图将该Transformer扩展到更广泛的视觉任务,如目标检测、语义分割、姿态估计、视频理解等。本文主要研究密集预测任务的Transformer,包括姿态估计和语义分割。

Vision Transformer将图像分割为大小为16×16的图像patches序列,然后提取每个图像patch的特征表示。因此,Vision Transformer的输出表示失去了精确密集预测所必需的细粒度空间细节。Vision Transformer仅输出单尺度特征表示,因此缺乏处理多尺度变化的能力。为了减少特征粒度的损失并对多尺度变化进行建模,作者提出了高分辨率Transformer (HRT),它包含更丰富的空间信息,并为密集预测构建多分辨率表示。

高分辨率 Transformer 采用了HRNet中的多分辨率并行设计。

  • 首先,HRT在stem和第一阶段都采用了卷积(多个研究表明卷积在早期表现较好);
  • 其次,HRT在整个过程中使用并行的中分辨率和低分辨率流维护高分辨率流,以帮助提高高分辨率表示(利用不同分辨率的特征图,HRT能够模拟多尺度变化);
  • 最后,HRT通过多尺度融合模块交换多分辨率特征信息,实现短距离和长距离注意力的混合。

在每个分辨率下,采用局部窗口自注意力机制来降低内存和计算复杂度。作者将表示映射划分为一组不重叠的小图像窗口,并在每个图像窗口中分别执行自注意力。这就降低了内存和计算复杂度,从二次到线性的空间大小。

作者进一步在局部窗口自注意力后的前馈网络(FFN)中引入3×3深度卷积,以在局部窗口自注意力过程中断开的图像窗口之间交换信息。这有助于扩大感受野,并对密集的预测任务至关重要。

图1显示了HRT Transformer Block的详细信息。

作者进行了图像分类、姿态估计和语义分割任务的实验,并在各种 Baseline 上取得了竞争性的性能。例如,与DeiT-B相比,HRT-B在ImageNet分类上获得了+1.0%的Top-1精度,参数减少了40%,FLOPs减少了20%。在COCO val上,HRT-B比HRNet-W48增加0.9% AP,参数减少32%,FLOPs减少19%。在PASCAL-Context test和COCO-Stuff test中,HRT-B+OCR分别比HRNet-W48+OCR增加了+1.2%和+2.0% mIoU,参数减少了25%,FLOPs略多。


2相关工作


2.1 Vision Transformer

随着Vision Transformer 和 Data-efficient image Transformer (DeiT)的成功,人们提出了各种技术来提高Vision Transformer的精度。在最近的改进中,如多尺度特性层次结构和合并卷积的有效性已经得到验证。

例如,MViT、PVT和Swin按照典型卷积架构(如ResNet-50)的空间配置将多尺度特征层次引入Transformer。与之不同的是HRT利用HRNet启发的多分辨率并行设计,融合了多尺度特征层次。

CvT、CeiT 和 LocalViT 通过在自注意力或FFN中插入深度卷积来增强 Transformer 的局部特征的鲁棒性。在HRT中插入卷积的目的是不同的,除了增强局部特征的鲁棒性,它还确保了跨非重叠窗口的信息交换。

先前也有一些研究提出了类似的局部自注意力方案用于图像分类。它们在卷积后构造重叠的局部窗口,计算量大。本文提出应用局部窗口自注意力方案将输入特征映射划分为非重叠窗口。然后在每个窗口内独立应用自注意力,从而显著提高效率。

有研究表明,提高Vision Transformer 输出的表示的空间分辨率对语义分割很重要。而HRT通过利用多分辨率并行Transformer 方案,为解决Vision Transformer的低分辨率问题提供了方法。

2.2 高分辨率CNN的密集预测

高分辨率卷积算法在姿态估计和语义分割方面都取得了很大的成功。在高分辨率卷积神经网络的开发中,开发了 3 种主要方法,包括:

  • 应用 dilated convolutions 去除一些 down-sample layers ;
  • 用解码器从低分辨率表示中恢复高分辨率表示;
  • 在整个网络中保持高分辨率表示。

本文的HRT属于第3中方法,同时保留了vision transformer和HRNet的优点。


3High-Resolution Transformer


3.1 多分辨率并联Transformer

遵循HRNet的设计,从高分辨率卷积作为第一阶段,逐步添加高分辨率到低分辨率的流作为新的阶段。多分辨率流是并行连接的。主体由一系列的阶段组成。在每个阶段,每个分辨率流的特征表示分别用多个Transformer Block 进行更新,并通过卷积多尺度融合模块进行跨分辨率信息的重复交换。

image.png

图2说明了整个HRT体系结构。卷积多尺度融合模块的设计完全遵循HRNet。

3.2 Local-window Self-Attention

将Feature map 划分为一组不重叠的小窗口:,其中每个窗口的大小为K × K。然后在每个窗口内独立执行多头自注意力(MHSA)。第p个窗口的多头自注意力公式为:

image.png

其中, , ,和()。H表示Head数,D表示通道数,N表示输入分辨率,表示MHSA的输出表示。作者还在模型中引入的相对位置嵌入方案,将相对位置信息融合到局部窗口的自注意力中。

MHSA在每个窗口中聚合信息,将它们合并以计算输出:

图1的左边部分说明了局部窗口自注意力如何更新2D输入表示,其中多头自注意在每个窗口中独立操作。

3.3 FFN with depth-wise convolution

局部窗口自注意力对非重叠窗口分别执行自注意力。窗户之间没有信息交换。为了解决这个问题,作者在Vision Transformer 中形成FFN的2个点MLP之间添加了一个3×3深度卷积:。图1的右半部分展示了具有3×3深度卷积的FFN如何更新2D输入表示的示例。

3.4   Representation head 设计

如图2所示,HRT的输出由4个不同分辨率的Feature map组成。

  • ImageNet分类:将4倍下采样的特征图送到bottleneck 中,输出通道分别更改为128、256、512和1024。然后,应用  strided convolutions  来融合它们,输出具有2048通道的最低分辨率的特征图。最后,应用一个全局平均池化操作,然后是最终分类器;
  • 姿态估计:只在最高分辨率的特征图上应用回归Head;
  • 语义分割:将语义分割头应用于级联表示上,首先将所有低分辨率表示上采样到最高分辨率,然后将它们级联在一起。

3.5 Instantiation

image.png

在表1中说明了HRT的总体架构配置。

作者用(M1, M2, M3, M4)和(B1, B2, B3, B4)分别表示{state1, stage2, stage3, stage4}的模块数和块数;用(C1, C2, C3, C4), (H1, H2, H3, H4)和(R1, R2, R3, R4)来表示不同分辨率下Transformer Block的通道数,Head数和MLP膨胀比。

按照原始的HRNet保持第一阶段不变,并使用Bottleneck作为基本的构建块。将Transformer Block应用于其他阶段,每个Transformer Block由一个局部窗口自注意力和一个具有3x3深度卷积的FFN组成。

为了简单起见,在表1中没有包含卷积多尺度融合模块。在实现中默认将4个分辨率流上的窗口大小设置为(7,7,7,7)。表2展示了3个不同的HRT实例的配置细节,其中所有模型的MLP膨胀比(R1,R2,R3,R4)都被设置为(4,4,4,4)。

3.6 Analysis

3×3深度卷积的好处有2个:

  • 增强局部性;
  • 支持跨窗口的交互。

在图3中说明了具有深度卷积的FFN如何能够将交互扩展到非重叠的局部窗口之外,并对它们之间的关系建模。因此,结合局部窗口自注意力和3×3深度卷积的FFN,可以构建出显著提高内存和计算效率的HRT Transformer Block。

相关文章
|
9月前
|
机器学习/深度学习 编解码 测试技术
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
400 0
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
|
10月前
|
机器学习/深度学习 人工智能 NoSQL
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
512 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
|
10月前
|
监控 数据可视化 数据挖掘
惊叹!燕云十六声运营团队靠它提升工作效率!
在游戏行业竞争激烈的2025蛇年新春,燕云十六声团队通过选择合适的可视化协作软件实现了高效工作。板栗看板以其高度可视化的任务管理、灵活的任务分配和强大的文件管理功能脱颖而出。Trello、Asana、Monday.com、Zeplin和Slack等工具也各具特色,提供了丰富的插件、权限管理和实时沟通等功能,助力团队应对巨大工作量和协作挑战,提升工作效率,打造更优质的游戏产品。
458 12
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤
【10月更文挑战第7天】本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据自身需求选择合适的方法。
407 3
vue3 element-ui-plus Carousel 跑马灯 的使用 及 踩坑记录
本文介绍了在Vue 3中使用Element UI Plus的Carousel组件实现跑马灯效果的方法,并分享了在实现过程中遇到的常见问题和解决方案。
vue3 element-ui-plus Carousel 跑马灯 的使用 及 踩坑记录
|
前端开发 JavaScript API
构建高效Web应用:React与Node.js的完美结合
【8月更文挑战第29天】在当今快速变化的软件开发领域,构建高性能、可扩展的Web应用成为开发者的首要任务。本文将深入探讨如何利用React和Node.js这两大技术栈,打造一个高效且响应迅速的现代Web应用。从前端的用户界面设计到后端的服务逻辑处理,我们将一步步分析这两种技术如何协同工作,提升应用性能,并确保用户体验的流畅性。通过实际代码示例和架构设计的解析,本篇文章旨在为读者提供一套清晰的指南,帮助他们在项目开发中做出更明智的技术选择。
|
JSON API 数据格式
学好Elasticsearch系列-索引的批量操作
学好Elasticsearch系列-索引的批量操作
373 1
|
存储 弹性计算 缓存
阿里云经济型e实例云服务器怎么样?经济型e实例性能及价格详细介绍
前不久,阿里云推出了经济型e实例,它一款全新的云服务器实例,是阿里云面向个人开发者、学生、小微企业,可轻松满足网站建设、开发测试和小型应用构建等场景需求,目前的价格最低15元/月,进一步降低了学生群体、个人开发者和小微企业的上云门槛。本位为大家详细介绍一下经济型e实例,以供参考。
1140 1
阿里云经济型e实例云服务器怎么样?经济型e实例性能及价格详细介绍
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的高校共享单车管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的高校共享单车管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
522 0
|
Python Windows
cmd输入python弹出windows应用商店的问题
cmd输入python弹出windows应用商店的问题
717 0