一、Transformer(3篇)
1.1 Experts Weights Averaging: A New General Training Scheme for Vision Transformers
专家加权平均法:一种新的视觉变形器通用训练方案
https://arxiv.org/abs/2308.06093
结构重新参数化是卷积神经网络(CNN)的一种通用训练方案,它在不增加推理成本的情况下实现性能改进。随着Vision Transformers(ViTs)在各种视觉任务中逐渐超过CNN,人们可能会质疑:是否存在专门针对ViT的训练方案,该方案也可以在不增加推理成本的情况下实现性能改进?最近,专家混合(MoE)引起了越来越多的关注,因为它可以通过稀疏激活的专家以固定成本有效地扩展Transformers的容量。考虑到MoE也可以被视为一个多分支结构,我们可以利用MoE来实现类似于结构重新参数化的ViT训练方案吗?在本文中,我们肯定地回答这些问题,与一个新的一般培训策略的ViTs。具体来说,我们解耦ViTs的训练和推理阶段。在训练过程中,我们将ViT的一些前馈网络(FFN)替换为专门设计的,更有效的MoE,通过随机均匀分区将令牌分配给专家,并在每次迭代结束时对这些MoE执行专家权重平均(EWA)。训练后,我们通过平均专家将每个MoE转换为FFN,将模型转换回原始ViT进行推理。我们进一步提供了一个理论分析,以说明为什么以及如何工作。各种2D和3D视觉任务,ViT架构和数据集的综合实验验证了所提出的训练方案的有效性和通用性。此外,我们的训练方案也可以应用于改善性能时,微调ViTs。最后,但同样重要的是,所提出的EWA技术可以显着提高天真MoE在各种2D视觉小数据集和3D视觉任务的有效性。
1.2 ViGT: Proposal-free Video Grounding with Learnable Token in Transformer
ViGT:Transformer中具有可学习令牌的免建议视频接地
https://arxiv.org/abs/2308.06009
视频接地(VG)任务的目的是定位查询的动作或事件在一个未经修剪的视频丰富的语言描述的基础上。现有的无提案方法被困在视频和查询之间的复杂交互中,过度强调跨模态特征融合和特征相关性。在本文中,我们提出了一种新的边界回归范式,在Transformer中进行回归令牌学习。特别地,我们提出了一个简单但有效的无提案框架,即视频接地Transformer(ViGT),它使用可学习的回归令牌而不是多模态或跨模态特征来预测时间边界。在ViGT中,可学习令牌的好处表现如下。(1)令牌与视频或查询无关,并且避免了数据偏向原始视频和查询。(2)令牌同时执行来自视频和查询特征的全局上下文聚合。首先,我们采用共享特征编码器来将视频和查询两者投影到联合特征空间中,然后执行跨模态共同关注(即,视频到查询注意力和查询到视频注意力),以突出每个模态中的区别特征。此外,我们将一个可学习的回归令牌[REG]与视频和查询特征连接起来,作为视觉语言Transformer的输入。最后,我们利用令牌[REG]来预测目标时刻和视觉特征,以约束每个时间戳的前景和背景概率。所提出的ViGT在三个公共数据集上表现良好:ANet Captions、TACoS和YouCookII。广泛的消融研究和定性分析进一步验证了ViGT的可解释性。
1.3 Compositional Learning in Transformer-Based Human-Object Interaction Detection
基于Transformer的人-物交互检测中的组合学习
https://arxiv.org/abs/2308.05961
人-物交互检测是理解人类活动和视觉场景的重要组成部分。标记实例的长尾分布是HOI检测中的主要挑战,促进了Few-Shot和zero-shot学习的研究。受HOI三元组的组合性质的启发,一些现有的方法采用组合学习的思想,其中对象和动作特征被单独学习并重新组合为新的训练样本。然而,这些方法遵循基于CNN的两阶段范式,具有有限的特征提取能力,并且通常依赖于辅助信息以获得更好的性能。在不引入任何额外信息的情况下,我们创造性地提出了一个基于变换器的组合HOI学习框架。在不同的HOI实例中重新组合人-物对表示和交互表示,这涉及更丰富的上下文信息,并促进知识的泛化。实验表明,我们简单而有效的方法达到了最先进的性能,特别是在罕见的HOI类。