姿态估计
人体姿势和手部姿势估计是引起研究界极大兴趣的基础性课题。关节式姿态估计类似于结构化预测任务,旨在从输入的RGB/D图像中预测关节坐标或网格顶点。在这里讨论了一些方法[34]、[35]、[36]、[117],这些方法探索了如何利用transformer来建模人体姿势和手姿势的全局结构信息。
用于手姿势估计的transformer。Huang等人[34]提出了一种基于transformer的网络,用于从点集进行3D手姿态估计。编码器首先利用PointNet从输入点云中提取逐点特征,然后采用标准的多头自关注模块来生成嵌入。为了向解码器暴露更多的全局姿势相关信息,使用诸如PointNet++的特征提取器来提取手关节方向的特征,然后将其作为位置编码馈送到解码器中。类似地,Huang等人提出了HOT Net用于3D手目标姿态估计。与使用transformer从输入点云直接预测3D手部姿态的前述方法不同,HOT Net使用ResNet生成初始2D手部对象姿态,然后将其馈送到transformer以预测3D手目标姿态。因此,频谱图卷积网络用于提取编码器的输入嵌入。Hampali等人[140]提出在给定单色图像的情况下估计双手的3D姿态。具体而言,将双手关节的一组潜在2D位置的外观和空间编码输入到transformer,并使用注意力机制来整理关节的正确配置,输出双手的3D姿态。
人体姿态估计transformer。Lin等人提出了一种网格transformer(METRO),用于从单个RGB图像预测3D人体姿态和网格。METRO通过CNN提取图像特征,然后通过将模板人体网格连接到图像特征来执行位置编码。一种具有渐进维数的多层变换编码器提出了一种减少嵌入维数的方法,最终生成人体关节和网格顶点的三维坐标。为了鼓励学习人类关节之间的非局部关系,METRO在训练期间随机屏蔽一些输入查询。Yang等人[117]基于Transformer架构和低级卷积块构建了一个名为TransPose的可解释模型。Transformer中内置的注意力层可以捕捉关键点之间的长距离空间关系,并解释预测的关键点位置高度依赖的依赖性。Li等人[141]提出了一种基于token表示的新方法,用于人体姿势估计(TokenPose)。每个关键点都被显式嵌入,作为同时学习的标记约束关系和来自图像的外观提示。Mao等人[142]提出了一种人体姿态估计框架,以基于回归的方式解决了这一任务。他们将姿态估计任务公式化为序列预测问题,并通过transformer来解决,transformer绕过了基于热图的姿态估计的缺点。Jiang等人[143]提出了一种新的基于transformer的网络,该网络可以以无监督的方式学习姿势和运动的分布,而不是跟踪身体部位并尝试对其进行时间平滑。该方法克服了检测中的不精确性,并纠正了部分或全部骨架损坏。Hao等人[144]提出,在不使用任何手动注释的情况下,在给定一组人的测试图像的情况下个性化人体姿态估计器。该方法在测试期间调整姿态估计器以利用特定于人的信息,并使用Transformer模型来构建自监督关键点和受监督关键点之间的转换!
其它任务
还有很多不同的高级/中级视觉任务,探索了使用视觉transformer以获得更好的性能,这里简要回顾了以下几个任务。
行人检测。由于物体在遮挡和人群场景中的分布非常密集,因此当将普通检测网络应用于行人检测任务时,通常需要额外的分析和调整。Lin等人揭示,当直接将DETR或可变形DETR应用于行人检测任务时,稀疏统一查询和解码器中的弱注意力场会导致性能下降。为了缓解这些缺点,作者提出了行人端到端检测器(PED),该检测器采用了一种新的解码器,称为密集查询和纠正注意域(DQRF),以支持密集查询并减轻查询的噪声或狭窄的注意域。他们还提出了V-Match,它通过充分利用可见注释实现了额外的性能改进!
场景图。场景图是场景的结构化表示,可以清楚地表达场景中的对象、属性和对象之间的关系。为了生成场景图,大多数现有方法首先提取基于图像的对象表示,然后在它们之间进行消息传播。图R-CNN利用自关注来整合来自图中相邻节点的上下文信息。最近,Sharifzadeh等人[150]在提取的对象嵌入上使用了transformer,Sharifzadeh等人[151]提出了一种名为Texema的新管道,并使用了预训练的文本到文本转换transformer(T5),从文本输入创建结构化图,并利用它们来改进关系推理模块,T5模型使Texema能够利用文本中的知识。
跟踪。一些研究人员还探索了在基于模板的鉴别跟踪器中使用transformer编码器-解码器架构,如TMT[153]、TrTr[154]和TransT[155]。所有这些工作都使用类似Siamese的跟踪管道来进行视频对象跟踪,并利用编码器-解码器网络来替代显式互相关操作,以实现全局和丰富的上下文相关性。具体地,transformer编码器和解码器分别被分配给模板分支和搜索分支。此外,Sun等人提出了TransTrack[156],这是一种在线联合检测和跟踪pipeline。它利用查询键机制跟踪预先存在的对象,并将一组学习的对象查询引入到pipeline中,以检测新的目标,拟议的TransTrack在MOT17和MOT20基准上实现了74.5%和64.5%的MOTA!
点云学习。最近还出现了许多其他研究点云学习transformer架构的著作[160]、[161]、[162]。例如,Guo等人[161]提出了一种新的框架,该框架用更合适的偏移注意力模块取代了原始的自我注意力模块,该模块包括隐式拉普拉斯算子和归一化细化。此外,Zhao等人[162]设计了一种新的transformer架构,称为point transformer。所提出的自关注层对点集的排列是不变的,使其适合于点集处理任务,Point Transformer在3D点云的语义分割任务中表现出强大的性能。
3)Low-level Vision
很少有作品将transformer应用于低级别视觉领域,例如图像超分辨率和生成。这些任务通常将图像作为输出(例如,高分辨率或去噪图像),这比诸如分类、分割和检测之类的高级视觉任务(其输出是标签或框)更具挑战性。
图像生成
将transformer模型应用于图像生成任务的一个简单而有效的方法是直接将架构从CNNs更改为transformer,如图9(a)所示。Jiang等人[38]提出了TransGAN,使用transformer架构构建GAN。由于难以按像素生成高分辨率图像,因此通过在不同阶段逐渐增加特征图分辨率来使用内存友好的生成器。相应地,多尺度鉴别器被设计为处理不同阶段中不同大小的输入。引入了各种训练方案,包括网格自关注、数据增强、相对位置编码和修改的归一化,以稳定训练并提高其性能。在各种基准数据集上的实验证明了基于transformer的GAN模型在图像生成任务中的有效性和潜力,Kwonjoon Lee等人[163]提出了ViTGAN,它将几种技术引入生成器和鉴别器,以稳定训练过程和收敛。为自注意模块引入欧氏距离,以增强transformer鉴别器的Lipschitzness。提出了自调制层模型和隐式神经表示来增强生成器的训练。因此,ViTGAN是第一个证明基于transformer的GAN可以实现与最先进的基于CNN的GAN相当的性能的工作!
4)视频处理
Transformer在基于序列的任务上表现出色,尤其是在NLP任务上。在计算机视觉(特别是视频任务)中,空间和时间维度信息受到青睐,这导致了transformer在许多视频任务中的应用,如帧合成、动作识别和视频检索!
高层次视觉处理
视频动作识别。顾名思义,视频人类动作任务涉及识别和定位视频中的人类动作,语境(如其他人和目标)在识别人类行为方面起着关键作用。Rohit等人提出了action transformer,以模拟感兴趣的人与周围环境之间的潜在关系。具体而言,I3D[169]被用作提取高级特征图的主干,从中间特征图中提取(使用RoI池)的特征被视为查询(Q),而关键字(K)和值(V)是从中间特征中计算的。自我注意机制应用于三个组成部分,并输出分类和回归预测。Lohit等人[170]提出了一种可解释的可微模块,称为时间transformer网络,以减少类内方差并增加类间方差。此外,Fayyaz和Gall提出了一种时间transformer[171],以在弱监督设置下执行动作识别任务。除了人类动作识别,transformer还用于群体活动识别[172]。
视频检索。基于内容的视频检索的关键是找到视频之间的相似性,Shao等人[174]建议仅利用视频级特征的图像级来克服相关挑战。他建议使用transformer来建模长期语义依赖性,还引入了监督对比学习策略,以执行难负样本挖掘。在基准数据集上使用该方法的结果表明了其性能和速度优势。此外,Gabeur等人[175]提出了一种多模态transformer来学习不同的跨模态线索,以表示视频。
视频目标检测。要检测视频中的目标,需要全局和局部信息,Chen等人引入了内存增强的全局局部聚合(MEGA)[176]来捕获更多内容。代表性特征提高了整体性能,解决了无效和不足的问题。此外,Yin等人[177]提出了一种时空transformer来聚合空间和时间信息。与另一个空间特征编码组件一起,这两个组件在3D视频目标检测任务中表现良好。无边框视频通常包含许多与目标任务无关的帧,因此,挖掘相关信息并丢弃冗余信息至关重要。为了提取此类信息,Seong等人提出了视频多任务transformer网络,该网络处理未修剪视频上的多任务学习。对于CoVieW数据集,任务是场景识别、动作识别和重要性得分预测。ImageNet和Places365上的两个预训练网络提取场景特征和对象特征,多任务transformer被堆叠以实现特征融合,利用类转换矩阵(CCM)。
低层次视觉处理
帧/视频合成。帧合成任务涉及在两个连续帧之间或在帧序列之后合成帧,而视频合成任务涉及合成视频。Liu等人提出了ConvTransformer[166],它由五个组件组成:特征嵌入、位置编码、编码器、查询解码器和合成前馈网络。与基于LSTM的工作相比,ConvTransformer通过更可并行化的架构实现了更好的结果。Schatz等人提出了另一种基于transformer的方法[179],该方法使用递归transformer网络从新颖的视图合成人类动作。
视频修复。视频修复任务涉及完成帧内任何缺失的区域,这很有挑战性,因为它需要合并沿空间和时间维度的信息。Zeng等人提出了一种时空transformer网络[28],它使用所有输入帧作为输入并并行填充它们,时空对抗性loss用于优化transformer网络。
5)多模态任务
由于跨文本的NLP任务的transformer成功,许多研究都热衷于开发其处理多模式任务(例如,视频文本、图像文本和音频文本)。其中一个例子是VideoBERT,它使用基于CNN的模块来预处理视频,以获得表示token。然后在这些token上训练transformer编码器,以学习下游任务的视频文本表示,例如视频字幕。一些其它示例包括VisualBERT和VL-BERT,它们采用单流统一transformer来捕获视觉元素和图像文本关系,用于下游任务,如视觉问答(VQA)和视觉常识推理(VCR)。此外,SpeechBERT等多项研究探索了使用transformer编码器对音频和文本对进行编码的可能性,以处理自动文本任务,如语音问答(SQA)。
除了上述开创性的多模态transformer,对比语言图像预训练(CLIP)将自然语言作为监督,以学习更有效的图像表示。CLIP联合训练文本编码器和图像编码器以预测相应的训练文本图像对,CLIP的文本编码器是一个标准的transformer,具有掩蔽的自我注意,用于保持预训练语言模型的初始化能力。对于图像编码器,CLIP考虑了两种类型的架构,ResNet和Vision Transformer。CLIP是在一个新的数据集上训练的,该数据集包含从互联网收集的4亿对(图像、文本)。更具体地说,给定一批N(图像、文本)对,CLIP联合学习文本和图像嵌入,以最大化N个匹配嵌入的余弦相似性。在few-shot transfer上,CLIP展示了惊人的分类性能,在不使用任何ImageNet训练标签的情况下,在ImageNet-1K数据集上实现了76.2%的top 1精度。
6)高效的transformer
尽管transformer模型在各种任务中取得了成功,但其对内存和计算资源的高要求阻碍了其在资源有限的设备上的实现。在本节中,我们回顾了压缩和加速transformer模型以实现高效实现的研究,这包括网络修剪、低秩分解、知识提取、网络量化和紧凑的架构设计,表4列出了压缩基于transformer的模型的一些代表性工作!
裁剪和分解
在基于transformer的预训练模型(例如BERT)中,并行执行多个注意力操作,以独立地建模不同token之间的关系[9],[10],然而,特定任务不需要使用所有的头。例如,Michel等人提供了经验证据,表明在测试时可以去除很大比例的注意力,而不会显著影响性能。不同层所需的head数量不同,某些层甚至可能只需要一个头。考虑到注意力头部的冗余,在[44]中定义了重要性得分,以估计每个头部对最终输出的影响,并且可以移除不重要的头部以进行有效部署。Dalvi等人[184]从两个角度分析了预训练transformer模型中的冗余:一般冗余和任务特定冗余。对于将图像分割为多个面片的视觉transformer[15],Tang等人[186]提出减少面片计算以加速推断,并且可以通过考虑其对有效输出特征的贡献来自动发现冗余面片。Zhu等人[187]将网络瘦身方法[188]扩展到视觉transformer,以减少FFN和注意力模块中线性投影的尺寸。
除了transformer模型的宽度外,还可以减少深度(即层数),以加速推断过程[198],[1999]。与可以并行计算transformer模型中不同注意力头部的概念不同,不同的层必须按顺序计算,因为下一层的输入取决于前一层的输出。Fan等人[198]提出了一种明智的分层策略,以规范模型的训练,然后在测试阶段将整个层一起移除。除了直接丢弃transformer模型中的模块的修剪方法之外,矩阵分解旨在基于低秩假设用多个小矩阵逼近大矩阵。例如,Wang等人[200]分解了transformer模型中的标准矩阵乘法,提高了推理效率!
知识蒸馏
知识蒸馏旨在通过从大型教师网络转移知识来训练学生网络[201],[202],[203],与教师网络相比,学生网络通常具有更薄、更浅的架构,更容易部署在资源有限的资源上,神经网络的输出和中间特征也可以用于从教师向学生传递有效信息。Mukherjee等人[204]专注于transformer模型,利用预先训练的BERT[10]作为教师,利用大量未标记数据指导小模型的训练。Wang等人[205]训练学生网络,以模拟预先训练的教师模型中自我注意层的输出,引入值之间的点积作为指导学生的新知识形式。[205]中还引入了教师助理[206],减少了大型预训练transformer模型和紧凑型学生网络之间的差距,从而促进了模拟过程。由于transformer模型中的各种类型的层(即自我关注层、嵌入层和预测层),Jiao等人[45]设计了不同的目标函数,以将知识从教师传递给学生。例如,学生模型嵌入层的输出通过MSE损失模仿教师的输出,对于视觉transformer,Jia等人[207]提出了一种细粒度流形蒸馏方法,该方法通过图像和分割块之间的关系挖掘有效知识!
量化
量化旨在减少表示网络权重或中间特征所需的位数[208],[209],已经详细讨论了一般神经网络的量化方法,并实现了与原始网络相当的性能[210],[211],[212]。最近,人们对如何特别量化transformer模型[213]、[214]越来越感兴趣。例如,Shridhar等人[215]建议将输入嵌入二进制高维向量,然后使用二进制输入表示来训练二进制神经网络。Cheong等人[216]通过低位(例如4位)表示表示transformer模型中的权重。Zhao等人[217]实证研究了各种量化方法,并表明kmeans量化具有巨大的发展潜力。针对机器翻译任务,Prato等人[46]提出了一种完全量化的transformer,正如论文所宣称的,它是第一个在翻译质量上没有任何损失的8位模型,此外,Liu等人[218]探索了一种后训练量化方案,以减少视觉transformer的内存存储和计算成本。
紧凑型架构设计
除了将预定义的transformer模型压缩成更小的模型,一些工作还试图直接设计紧凑的模型[219],[47]。Jiang等人[47]通过提出一个新的模块:基于跨度的动态卷积。将完全连接的层和卷积层结合起来,简化了自我关注的计算。与标准的自关注操作相比,矩阵分解可以更有效地计算,同时清楚地反映不同token之间的依赖性。高效transformer架构的设计也可以通过神经架构搜索(NAS)来实现自动化,该搜索可以自动搜索如何组合不同的组件。例如,Su等人[82]搜索了线性投影的斑块大小和尺寸以及注意力模块的头部数量,以获得有效的视觉transformer。Li等人[223]探索了一种自我监督搜索策略,以获得由卷积模块和自我关注模块组成的混合架构!
transformer模型中的自关注操作计算给定序列中不同输入token表示之间的点积(图像识别任务中的补丁),其复杂性为O(N),其中N是序列的长度。最近,有一个目标是将大型方法的复杂性降低到O(N),以便transformer模型可以扩展到长序列。例如,Katharopoulos等人将自关注近似为内核特征图的线性点积,并通过RNN揭示了token之间的关系。Zaheer等人将每个标记视为图中的顶点,并将两个标记之间的内积计算定义为边。受图论[227],[228]的启发,各种稀疏图被组合以近似transformer模型中的稠密图,并且可以实现O(N)复杂性。讨论前面的方法在如何识别transformer模型中的冗余方面采取了不同的方法(见图13),修剪和分解方法通常需要具有冗余的预定义模型。具体而言,修剪侧重于减少transformer模型中的组件(例如,层、头部)的数量,而分解表示具有多个小矩阵的原始矩阵。紧凑型还可以直接手动(需要足够的专业知识)或自动(例如,通过NAS)设计,所获得的紧凑模型可以通过量化方法进一步用低比特表示,以在资源有限的设备上高效部署。
结论和挑战
transformer由于其与CNN相比的竞争性能和巨大潜力而成为计算机视觉领域的热门话题,为了发现和利用transformer的功率,正如本调查所总结的,近年来提出了许多方法。这些方法在广泛的视觉任务上表现出优异的性能,包括主干、高级/中级视觉、低级视觉和视频处理。然而,计算机视觉transformer的潜力尚未被充分发掘,这意味着仍有几个挑战需要解决,在本节中,我们将讨论这些挑战,并就未来前景提供见解。
1)挑战
尽管研究人员提出了许多基于transformer的模型来处理计算机视觉任务,但这些工作只是该领域的第一步,仍有很大的改进空间。例如,ViT中的transformer架构遵循NLP的标准transformer,但专门为CV设计的改进版本仍有待探索。此外,有必要将transformer应用于除前面提到的任务之外的更多任务,计算机视觉transformer的通用性和鲁棒性也具有挑战性。与CNN相比,纯transformer缺乏一些感应偏差,并且严重依赖于大规模数据集进行大规模训练,因此,数据质量对transformer的通用性和鲁棒性有重要影响。尽管ViT在诸如CIFAR和VTAB的下游图像分类任务上表现出优异的性能,直接将ViT主干应用于目标检测无法获得比CNN更好的结果。为了更好地将预训练的transformer推广到更广泛的视觉任务上,还有很长的路要走。
尽管许多工作已经解释了NLP中transformer的使用,但清楚地解释transformer为什么在视觉任务中工作良好仍然是一个具有挑战性的课题。inductive biases,包括翻译等同性和局部性,是CNN成功的原因,但transformer缺乏任何inductive biases。目前的文献通常以直观的方式分析这种效应,例如,Dosovitskiy等人[15]声称,大规模训练可以超越inductive biases。位置嵌入被添加到图像块中以保留位置信息,这在计算机视觉任务中是重要的。受transformer中大量参数使用的启发,过度参数化[238],[239]可能是视觉transformer可解释性的潜在点。最后但并非最不重要的是,为CV开发高效的transformer模型仍然是一个悬而未决的问题。transformer模型通常是巨大的,而且计算成本很高。例如,基础ViT模型[15]需要180亿FLOP来处理图像,相比之下,轻量级的CNN模型GhostNet,[241]仅使用约6亿FLOP就可以实现类似的性能。虽然已经提出了几种压缩transformer的方法,但它们仍然非常复杂,这些最初为NLP设计的方法可能不适合CV。因此,迫切需要高效的transformer模型,以便将视觉transformer部署在资源有限的设备上。
2)未来展望
为了推动视觉transformer的发展,我们为未来的研究提供了几个潜在的方向,一个方向是计算机视觉中transformer的有效性和效率。目标是开发高效的视觉transformer,特别是具有高性能和低资源成本的transformer。性能决定了模型是否可以应用于真实世界的应用程序,而资源成本影响设备上的部署。有效性通常与效率相关,因此确定如何在两者之间实现更好的平衡是未来研究的一个有意义的课题。大多数现有的视觉transformer模型被设计为仅处理单个任务。GPT-3等许多NLP模型都演示了transformer如何在一个模型中处理多个任务。CV领域的IPT还能够处理多个低级别视觉任务,如超分辨率、图像去噪和去噪。Perceiver[244]和PerceiverIO[245]是可以在多个领域(包括图像、音频、多模态、点云)上工作的先驱模型。作者认为,只有一个模型可以涉及更多的任务。在一个transformer中统一所有视觉任务甚至其它任务(即,一个大的统一模型)是一个令人兴奋的话题。
有各种类型的神经网络,如CNN、RNN和transformer,在CV领域,CNNs曾经是主流选择,但现在transformer正在变得流行。CNNs可以捕捉诸如翻译等同性和局部性等inductive bias,而ViT使用大规模训练来超越inductive bias。从目前的证据来看,CNN在小数据集上表现良好,而transformer在大数据集上的表现更好。未来的问题是使用CNN还是transformer。通过使用大型数据集进行训练,Transformer可以在NLP和CV基准上实现最先进的性能,神经网络可能需要大数据而不是inductive bias。
参考
[1] A Survey on Vision Transformer.
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)