【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 14 日论文合集)

简介: 【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 14 日论文合集)

一、Transformer(3篇)

1.1 Experts Weights Averaging: A New General Training Scheme for Vision Transformers

专家加权平均法:一种新的视觉变形器通用训练方案
https://arxiv.org/abs/2308.06093
结构重新参数化是卷积神经网络(CNN)的一种通用训练方案,它在不增加推理成本的情况下实现性能改进。随着Vision Transformers(ViTs)在各种视觉任务中逐渐超过CNN,人们可能会质疑:是否存在专门针对ViT的训练方案,该方案也可以在不增加推理成本的情况下实现性能改进?最近,专家混合(MoE)引起了越来越多的关注,因为它可以通过稀疏激活的专家以固定成本有效地扩展Transformers的容量。考虑到MoE也可以被视为一个多分支结构,我们可以利用MoE来实现类似于结构重新参数化的ViT训练方案吗?在本文中,我们肯定地回答这些问题,与一个新的一般培训策略的ViTs。具体来说,我们解耦ViTs的训练和推理阶段。在训练过程中,我们将ViT的一些前馈网络(FFN)替换为专门设计的,更有效的MoE,通过随机均匀分区将令牌分配给专家,并在每次迭代结束时对这些MoE执行专家权重平均(EWA)。训练后,我们通过平均专家将每个MoE转换为FFN,将模型转换回原始ViT进行推理。我们进一步提供了一个理论分析,以说明为什么以及如何工作。各种2D和3D视觉任务,ViT架构和数据集的综合实验验证了所提出的训练方案的有效性和通用性。此外,我们的训练方案也可以应用于改善性能时,微调ViTs。最后,但同样重要的是,所提出的EWA技术可以显着提高天真MoE在各种2D视觉小数据集和3D视觉任务的有效性。

1.2 ViGT: Proposal-free Video Grounding with Learnable Token in Transformer

ViGT:Transformer中具有可学习令牌的免建议视频接地
https://arxiv.org/abs/2308.06009
视频接地(VG)任务的目的是定位查询的动作或事件在一个未经修剪的视频丰富的语言描述的基础上。现有的无提案方法被困在视频和查询之间的复杂交互中,过度强调跨模态特征融合和特征相关性。在本文中,我们提出了一种新的边界回归范式,在Transformer中进行回归令牌学习。特别地,我们提出了一个简单但有效的无提案框架,即视频接地Transformer(ViGT),它使用可学习的回归令牌而不是多模态或跨模态特征来预测时间边界。在ViGT中,可学习令牌的好处表现如下。(1)令牌与视频或查询无关,并且避免了数据偏向原始视频和查询。(2)令牌同时执行来自视频和查询特征的全局上下文聚合。首先,我们采用共享特征编码器来将视频和查询两者投影到联合特征空间中,然后执行跨模态共同关注(即,视频到查询注意力和查询到视频注意力),以突出每个模态中的区别特征。此外,我们将一个可学习的回归令牌[REG]与视频和查询特征连接起来,作为视觉语言Transformer的输入。最后,我们利用令牌[REG]来预测目标时刻和视觉特征,以约束每个时间戳的前景和背景概率。所提出的ViGT在三个公共数据集上表现良好:ANet Captions、TACoS和YouCookII。广泛的消融研究和定性分析进一步验证了ViGT的可解释性。

1.3 Compositional Learning in Transformer-Based Human-Object Interaction Detection

基于Transformer的人-物交互检测中的组合学习
https://arxiv.org/abs/2308.05961
人-物交互检测是理解人类活动和视觉场景的重要组成部分。标记实例的长尾分布是HOI检测中的主要挑战,促进了Few-Shot和zero-shot学习的研究。受HOI三元组的组合性质的启发,一些现有的方法采用组合学习的思想,其中对象和动作特征被单独学习并重新组合为新的训练样本。然而,这些方法遵循基于CNN的两阶段范式,具有有限的特征提取能力,并且通常依赖于辅助信息以获得更好的性能。在不引入任何额外信息的情况下,我们创造性地提出了一个基于变换器的组合HOI学习框架。在不同的HOI实例中重新组合人-物对表示和交互表示,这涉及更丰富的上下文信息,并促进知识的泛化。实验表明,我们简单而有效的方法达到了最先进的性能,特别是在罕见的HOI类。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
186 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
3月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
3月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
279 3
|
6月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
79 2
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
129 0

热门文章

最新文章