一、Transformer(7篇)
1.1 PAT: Position-Aware Transformer for Dense Multi-Label Action Detection
PAT:用于密集多标签动作检测的位置感知Transformer
https://arxiv.org/abs/2308.05051
我们提出了PAT,一个基于变换器的网络,学习复杂的时间共现动作依赖关系的视频,通过利用多尺度的时间特征。在现有的方法中,Transformers中的自注意机制丢失了时间位置信息,这对于鲁棒的动作检测是必不可少的。为了解决这个问题,我们(i)在自我注意机制中嵌入相对位置编码,以及(ii)通过设计一种新的非分层网络来利用多尺度时间关系,与最近使用分层结构的基于变换器的方法相反。我们认为,加入自我注意机制与多个子采样过程中的分层方法的结果增加了位置信息的丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了我们所提出的方法的性能,并表明PAT在Charades和MultiTHUMOS数据集上分别将当前最先进的结果提高了1.1%和0.6%mAP,从而分别实现了26.5%和44.6%的新的最先进的mAP。我们还进行了广泛的消融研究,以检查我们提出的网络的不同组成部分的影响。
1.2 Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution
特征调制变换:基于高频先验的图像超分辨率全局表示交叉细化
https://arxiv.org/abs/2308.05022
基于变换器的方法通过有效地提取长程依赖关系在单图像超分辨率(SISR)中表现出显着的潜力。然而,目前这一领域的大多数研究都优先考虑变压器模块的设计以捕获全局信息,而忽略了结合高频先验的重要性,我们认为这可能是有益的。在我们的研究中,我们进行了一系列实验,发现变压器结构更擅长捕捉低频信息,但与卷积结构相比,在构建高频表示方面的能力有限。我们提出的解决方案,交叉细化自适应特征调制变换器(CRAFT),集成了卷积和变换器结构的优势。它包括三个关键组成部分:用于提取高频信息的高频增强残差块(HFERB)、用于捕获全局信息的移位矩形窗口注意块(SRWAB)、以及用于细化全局表示的混合融合块(HFB)。我们在多个数据集上的实验表明,CRAFT在使用较少参数的情况下,性能优于最先进的方法高达0.29dB。源代码将在以下网址提供:www.example.com的网站。
1.3 Joint-Relation Transformer for Multi-Person Motion Prediction
用于多人运动预测的联合关系Transformer
https://arxiv.org/abs/2308.04808
多人运动预测是一个具有挑战性的问题,由于依赖于个人过去的运动和与其他人的互动的运动。基于变换器的方法已经在这项任务上显示出有希望的结果,但是它们错过了关节之间的显式关系表示,例如骨架结构和成对距离,这对于精确的交互建模至关重要。在本文中,我们提出了联合关系Transformer,它利用关系信息来增强交互建模和提高未来的运动预测。我们的关系信息包含的相对距离和内部/人间的物理约束。为了融合关系和联合信息,我们设计了一种新的联合关系融合层,关系感知注意更新这两个功能。此外,我们监督的关系信息,预测未来的距离。实验结果表明,该方法在3DPW-SoMoF/RC数据集上对900 ms VIM的性能提高了13.4%,在CMU-Mpcap/MuPoTS-3D数据集上对3s MPJPE的性能提高了17.8%/12.0%。
1.4 Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation
基于变换及其自升华的旋转不变三维点集特征的自监督学习
https://arxiv.org/abs/2308.04725
三维物体的旋转不变性是分析三维点集数据的一个重要性质。具有旋转不变性的常规3D点集DNN通常通过使用标记的3D点集作为训练样本经由监督学习来获得准确的3D形状特征。然而,由于快速增加的3D点集数据和标记的高成本,需要一个框架来学习旋转不变的3D形状特征,从许多未标记的3D点集。本文提出了一种新的自监督学习框架,用于在对象级获取精确且旋转不变的3D点集特征。我们提出的轻量级DNN架构分解成多个全球尺度的区域,称为令牌,保留组成的3D对象的部分形状的空间布局的输入3D点集。我们采用了一个自我注意的机制,以完善的令牌和聚合成一个表达旋转不变的功能,每个3D点集。我们的DNN是有效的训练使用伪标签产生的自蒸馏框架。为了便于学习准确的功能,我们建议结合多作物和切割混合数据增强技术,以多样化的3D点集的训练。通过全面的评估,我们经验证明,(1)现有的旋转不变DNN架构为监督学习设计不一定学习准确的3D形状特征下的自我监督学习场景,和(2)我们提出的算法学习的旋转不变的3D点集特征比现有算法学习的那些更准确。代码将在https://github.com/takahikof/RIPT_SDMM上提供
1.5 Which Tokens to Use? Investigating Token Reduction in Vision Transformers
要使用哪些代币?研究视觉Transformer中的令牌减少
https://arxiv.org/abs/2308.04657
自从引入Vision Transformer(ViT)以来,研究人员一直在寻求通过删除处理令牌中的冗余信息来提高ViT的效率。虽然已经探索了不同的方法来实现这一目标,但我们仍然缺乏对所产生的减少模式以及这些模式在令牌减少方法和数据集之间的差异的理解。为了缩小这一差距,我们开始使用四个图像分类数据集来了解10种不同的令牌缩减方法的缩减模式。通过系统地比较这些方法在不同的分类任务,我们发现,Top-K修剪方法是一个令人惊讶的强大的基线。通过对不同方法的深入分析,我们确定:当改变主干模型的容量时,约简模式通常是不一致的,基于修剪的方法的约简模式显著不同于固定的径向模式,并且基于修剪的方法的约简模式在分类数据集之间是相关的。最后,我们报告说,减少模式的相似性是一个中等到强大的代理模型的性能。项目页面https://vap.aau.dk/tokens。
1.6 LATR: 3D Lane Detection from Monocular Images with Transformer
LATR:基于Transformer的单目图像三维车道检测
https://arxiv.org/abs/2308.04583
从单目图像中检测3D车道是自动驾驶中的一项基本但具有挑战性的任务。最近的进展主要依赖于结构3D替代物(例如,鸟瞰图),其由前视图图像特征和相机参数构建。然而,在单目图像的深度模糊性不可避免地造成构建的替代特征映射和原始图像之间的错位,提出了一个很大的挑战,准确的车道线检测。为了解决上述问题,我们提出了一种新的LATR模型,一个端到端的3D车道检测器,使用3D感知的前视图功能,而无需转换视图表示。具体来说,LATR检测3D车道通过交叉关注的基础上查询和键值对,使用我们的车道感知查询生成器和动态3D地面位置嵌入。一方面,每个查询是基于二维车道感知特征生成的,并采用混合嵌入来增强车道信息。另一方面,3D空间信息被注入作为来自迭代更新的3D地平面的位置嵌入。LATR在合成Apollo和现实OpenLane上都大幅优于先前的最先进方法(例如,11.4在OpenLane上的F1分数方面的增益)。代码将在https://github.com/JMoonr/LATR发布。
1.7 Geometric Learning-Based Transformer Network for Estimation of Segmentation Errors
基于几何学习的Transformer网络分割误差估计
https://arxiv.org/abs/2308.05068
已经提出了许多分割网络用于肿瘤和危险器官的3D体积分割。医院和临床机构寻求加速和最小化专家在图像分割中的努力。尽管如此,在由这些网络生成的错误的情况下,临床医生将不得不手动编辑所生成的分割图。给定一个3D体积和其假定的分割图,我们提出了一种方法来识别和测量错误的分割图中的区域。我们的方法可以估计在任何点或节点的3D网格从一个可能错误的体积分割图,作为一个质量保证工具的误差。我们提出了一个基于图神经网络的Transformer器的Nodeformer架构的基础上测量和分类的分割错误在任何一点上。我们通过模拟错误的3D分割图,在人类内耳骨迷路结构的高分辨率micro-CT数据集上评估了我们的网络。我们的网络结合了一个卷积编码器来从输入的micro-CT数据中计算以节点为中心的特征,Nodeformer来学习潜图嵌入,以及一个多层感知器(MLP)来计算和分类节点错误。我们的网络在估计和分类节点误差方面,与其他图神经网络(GNN)相比,平均绝对误差为~0.042,准确率为79.53%。我们还提出了顶点法线预测作为预训练CNN编码器的自定义借口任务,以提高网络的整体性能。定性分析表明,我们的网络在正确分类错误和减少误分类的效率。