【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)

简介: 【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递(8 月 10 日论文合集)

一、Transformer(7篇)

1.1 PAT: Position-Aware Transformer for Dense Multi-Label Action Detection

PAT:用于密集多标签动作检测的位置感知Transformer
https://arxiv.org/abs/2308.05051
我们提出了PAT,一个基于变换器的网络,学习复杂的时间共现动作依赖关系的视频,通过利用多尺度的时间特征。在现有的方法中,Transformers中的自注意机制丢失了时间位置信息,这对于鲁棒的动作检测是必不可少的。为了解决这个问题,我们(i)在自我注意机制中嵌入相对位置编码,以及(ii)通过设计一种新的非分层网络来利用多尺度时间关系,与最近使用分层结构的基于变换器的方法相反。我们认为,加入自我注意机制与多个子采样过程中的分层方法的结果增加了位置信息的丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了我们所提出的方法的性能,并表明PAT在Charades和MultiTHUMOS数据集上分别将当前最先进的结果提高了1.1%和0.6%mAP,从而分别实现了26.5%和44.6%的新的最先进的mAP。我们还进行了广泛的消融研究,以检查我们提出的网络的不同组成部分的影响。

1.2 Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution

特征调制变换:基于高频先验的图像超分辨率全局表示交叉细化
https://arxiv.org/abs/2308.05022
基于变换器的方法通过有效地提取长程依赖关系在单图像超分辨率(SISR)中表现出显着的潜力。然而,目前这一领域的大多数研究都优先考虑变压器模块的设计以捕获全局信息,而忽略了结合高频先验的重要性,我们认为这可能是有益的。在我们的研究中,我们进行了一系列实验,发现变压器结构更擅长捕捉低频信息,但与卷积结构相比,在构建高频表示方面的能力有限。我们提出的解决方案,交叉细化自适应特征调制变换器(CRAFT),集成了卷积和变换器结构的优势。它包括三个关键组成部分:用于提取高频信息的高频增强残差块(HFERB)、用于捕获全局信息的移位矩形窗口注意块(SRWAB)、以及用于细化全局表示的混合融合块(HFB)。我们在多个数据集上的实验表明,CRAFT在使用较少参数的情况下,性能优于最先进的方法高达0.29dB。源代码将在以下网址提供:www.example.com的网站。

1.3 Joint-Relation Transformer for Multi-Person Motion Prediction

用于多人运动预测的联合关系Transformer
https://arxiv.org/abs/2308.04808
多人运动预测是一个具有挑战性的问题,由于依赖于个人过去的运动和与其他人的互动的运动。基于变换器的方法已经在这项任务上显示出有希望的结果,但是它们错过了关节之间的显式关系表示,例如骨架结构和成对距离,这对于精确的交互建模至关重要。在本文中,我们提出了联合关系Transformer,它利用关系信息来增强交互建模和提高未来的运动预测。我们的关系信息包含的相对距离和内部/人间的物理约束。为了融合关系和联合信息,我们设计了一种新的联合关系融合层,关系感知注意更新这两个功能。此外,我们监督的关系信息,预测未来的距离。实验结果表明,该方法在3DPW-SoMoF/RC数据集上对900 ms VIM的性能提高了13.4%,在CMU-Mpcap/MuPoTS-3D数据集上对3s MPJPE的性能提高了17.8%/12.0%。

1.4 Self-supervised Learning of Rotation-invariant 3D Point Set Features using Transformer and its Self-distillation

基于变换及其自升华的旋转不变三维点集特征的自监督学习
https://arxiv.org/abs/2308.04725
三维物体的旋转不变性是分析三维点集数据的一个重要性质。具有旋转不变性的常规3D点集DNN通常通过使用标记的3D点集作为训练样本经由监督学习来获得准确的3D形状特征。然而,由于快速增加的3D点集数据和标记的高成本,需要一个框架来学习旋转不变的3D形状特征,从许多未标记的3D点集。本文提出了一种新的自监督学习框架,用于在对象级获取精确且旋转不变的3D点集特征。我们提出的轻量级DNN架构分解成多个全球尺度的区域,称为令牌,保留组成的3D对象的部分形状的空间布局的输入3D点集。我们采用了一个自我注意的机制,以完善的令牌和聚合成一个表达旋转不变的功能,每个3D点集。我们的DNN是有效的训练使用伪标签产生的自蒸馏框架。为了便于学习准确的功能,我们建议结合多作物和切割混合数据增强技术,以多样化的3D点集的训练。通过全面的评估,我们经验证明,(1)现有的旋转不变DNN架构为监督学习设计不一定学习准确的3D形状特征下的自我监督学习场景,和(2)我们提出的算法学习的旋转不变的3D点集特征比现有算法学习的那些更准确。代码将在https://github.com/takahikof/RIPT_SDMM上提供

1.5 Which Tokens to Use? Investigating Token Reduction in Vision Transformers

要使用哪些代币?研究视觉Transformer中的令牌减少
https://arxiv.org/abs/2308.04657
自从引入Vision Transformer(ViT)以来,研究人员一直在寻求通过删除处理令牌中的冗余信息来提高ViT的效率。虽然已经探索了不同的方法来实现这一目标,但我们仍然缺乏对所产生的减少模式以及这些模式在令牌减少方法和数据集之间的差异的理解。为了缩小这一差距,我们开始使用四个图像分类数据集来了解10种不同的令牌缩减方法的缩减模式。通过系统地比较这些方法在不同的分类任务,我们发现,Top-K修剪方法是一个令人惊讶的强大的基线。通过对不同方法的深入分析,我们确定:当改变主干模型的容量时,约简模式通常是不一致的,基于修剪的方法的约简模式显著不同于固定的径向模式,并且基于修剪的方法的约简模式在分类数据集之间是相关的。最后,我们报告说,减少模式的相似性是一个中等到强大的代理模型的性能。项目页面https://vap.aau.dk/tokens。

1.6 LATR: 3D Lane Detection from Monocular Images with Transformer

LATR:基于Transformer的单目图像三维车道检测
https://arxiv.org/abs/2308.04583
从单目图像中检测3D车道是自动驾驶中的一项基本但具有挑战性的任务。最近的进展主要依赖于结构3D替代物(例如,鸟瞰图),其由前视图图像特征和相机参数构建。然而,在单目图像的深度模糊性不可避免地造成构建的替代特征映射和原始图像之间的错位,提出了一个很大的挑战,准确的车道线检测。为了解决上述问题,我们提出了一种新的LATR模型,一个端到端的3D车道检测器,使用3D感知的前视图功能,而无需转换视图表示。具体来说,LATR检测3D车道通过交叉关注的基础上查询和键值对,使用我们的车道感知查询生成器和动态3D地面位置嵌入。一方面,每个查询是基于二维车道感知特征生成的,并采用混合嵌入来增强车道信息。另一方面,3D空间信息被注入作为来自迭代更新的3D地平面的位置嵌入。LATR在合成Apollo和现实OpenLane上都大幅优于先前的最先进方法(例如,11.4在OpenLane上的F1分数方面的增益)。代码将在https://github.com/JMoonr/LATR发布。

1.7 Geometric Learning-Based Transformer Network for Estimation of Segmentation Errors

基于几何学习的Transformer网络分割误差估计
https://arxiv.org/abs/2308.05068
已经提出了许多分割网络用于肿瘤和危险器官的3D体积分割。医院和临床机构寻求加速和最小化专家在图像分割中的努力。尽管如此,在由这些网络生成的错误的情况下,临床医生将不得不手动编辑所生成的分割图。给定一个3D体积和其假定的分割图,我们提出了一种方法来识别和测量错误的分割图中的区域。我们的方法可以估计在任何点或节点的3D网格从一个可能错误的体积分割图,作为一个质量保证工具的误差。我们提出了一个基于图神经网络的Transformer器的Nodeformer架构的基础上测量和分类的分割错误在任何一点上。我们通过模拟错误的3D分割图,在人类内耳骨迷路结构的高分辨率micro-CT数据集上评估了我们的网络。我们的网络结合了一个卷积编码器来从输入的micro-CT数据中计算以节点为中心的特征,Nodeformer来学习潜图嵌入,以及一个多层感知器(MLP)来计算和分类节点错误。我们的网络在估计和分类节点误差方面,与其他图神经网络(GNN)相比,平均绝对误差为~0.042,准确率为79.53%。我们还提出了顶点法线预测作为预训练CNN编码器的自定义借口任务,以提高网络的整体性能。定性分析表明,我们的网络在正确分类错误和减少误分类的效率。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
136 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
142 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
137 8
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
236 3
|
5月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
74 2
|
机器学习/深度学习 算法 计算机视觉
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(8 月 14 日论文合集)
|
6月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
606 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
121 0

热门文章

最新文章