最新更新的 CVPR 2022 论文66篇-阿里云开发者社区

以下是最新更新的 CVPR 2022 论文，包括的研究方向有：目标检测、预训练语言模型、Transformer、图像修复、模型训练、视觉语言表征学习、对比学习、深度估计、语义分割、动作检测、人脸防伪、长尾识别、神经网络架构设计、异常检测、三维视觉、姿态估计、机器人等

66篇最新录用论文信息。

录用论文（持续更新）

【基于联合表示学习和在线聚类的无监督活动分割】Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering

● 论文摘要：提出了一种新的无监督活动分割方法，它使用视频帧聚类作为前置任务，同时执行表示学习和在线聚类。这与通常按顺序执行表示学习和聚类的先前工作形成对比。作者通过采用时间最优传输来利用视频中的时间信息，将保留活动时间顺序的时间正则化项合并到用于计算伪标签集群分配的标准最优传输模块中。时间最优传输模块使得本文方法能够学习无监督活动分割的有效表示。此外，与之前需要在离线聚类之前存储整个数据集的学习特征的方法相比，本文方法可以通过在线方式一次处理一个小批量。

● 论文链接：https://arxiv.org/abs/2105.13353

● 论文视频：https://www.youtube.com/watch?v=i4Fh_3nzzUI&t=12s

● 作者单位：美国Retrocausal公司

【基于点的神经辐射场】Point-NeRF: Point-based Neural Radiance Fields ● 论文摘要：像NeRF这样的体积神经绘制方法可以生成高质量的视图合成结果，但对每个场景都进行了优化，导致重建时间过长。另一方面，深度多视图立体方法可以通过直接的网络推理快速重建场景几何。point - nerf结合了这两种方法的优点，使用神经三维点云，与相关的神经特征，以模拟一个亮度场。point - nerf可以在基于光线行进的渲染管道中，通过聚集近场景表面的神经点特征来有效地渲染。此外，通过预先训练的深度网络的直接推理，可以初始化point - nerf生成神经点云;这个点云可以微调，超过NeRF的视觉质量，以更快的30倍的训练时间。Point-NeRF可以与其他三维重建方法相结合，并通过一种新的剪枝和生长机制来处理这些方法中的错误和异常值。

● 论文主页：https://xharlie.github.io/projects/project_sites/pointnerf/

● 论文链接：https://arxiv.org/pdf/2201.08845.pdf

● 论文代码：https://github.com/Xharlie/pointnerf

● 作者单位：南加州大学、adobe研究院

【机器人对象重排的迭代流最小化】IFOR: Iterative Flow Minimization for Robotic Object Rearrangement

● 论文摘要：在非结构化环境中，精确的视觉对象重排是现实世界中广泛应用的一个关键问题。提出了执行，迭代流最小化机器人物体重排，一个端到端的方法，以解决未知物体在给定原始和最终场景的RGBD图像下的物体重排问题。首先，学习了一种基于RAFT的光流模型，通过纯合成数据来估计物体的相对变换。然后，这个流程被用于迭代最小化算法，以实现之前看不见的对象的精确定位。至关重要的是，我们表明我们的方法适用于混乱的场景，在现实世界中，而只是在合成数据上进行训练。

● 论文链接：https://arxiv.org/abs/2202.00732

● 论文代码：（待更新）

● 论文主页：https://imankgoyal.github.io/ifor.html

● 作者单位：NVIDIA、普林斯顿大学、卡耐基梅隆大学

【无界抗锯齿神经辐射场】Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields

● 论文摘要：虽然神经辐射场(NeRF)在物体和空间的小边界区域上展示了令人印象深刻的视图合成结果，但它们在“无边界”场景上却很困难，在这种场景中，摄像机可能指向任何方向，内容可能存在于任何距离。在这种背景下,现有NeRF-like模型往往会产生模糊或低分辨率的效果图(由于不平衡的细节和规模附近和远处的物体),慢火车,可能表现出构件由于固有的歧义的任务重建一套大型场景从一个小的图像。我们提出了mip-NeRF的一种扩展(一种处理采样和混叠的NeRF变体)，它使用非线性场景参数化、在线蒸馏和一种新的基于扭曲的正则化来克服无界场景带来的挑战。我们的模型，我们称之为“mip-NeRF 360”，因为我们的目标场景中，摄像机围绕一个点旋转360度，与mip-NeRF相比，减少了54%的均方误差，并能够为高度复杂的、无限的真实世界场景生成真实的合成视图和详细的深度地图。

● 论文链接：https://arxiv.org/abs/2111.12077

● 论文代码：（待更新）

● 论文视频：https://www.youtube.com/watch?v=zBSH-k9GbV4

● 作者单位：google、哈佛大学

【用于理解三维点云的自监督交叉模态对比学习】CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understandings

● 论文摘要：由于点云的不规则结构，人工标注大规模点云数据集用于三维目标的分类、分割和检测等各种任务往往非常费力。自我监督学习，无需任何人类标签，是解决这个问题的一个有前途的方法。我们在现实世界中观察到，人类能够将从2D图像中学习到的视觉概念映射到3D世界中。受此启发，我们提出了CrossPoint，一种简单的跨模态对比学习方法，用于学习可转移的3D点云表示。它通过最大化点云和相应的在不变空间中渲染的2D图像之间的一致性来实现物体的3D-2D对应，同时鼓励点云形态中转换的不变性。我们的联合训练目标结合了模式内和模式间的特征对应，从而以一种自我监督的方式集成了来自3D点云和2D图像模式的丰富学习信号。实验结果表明，我们的方法在不同的下游任务中，包括三维对象分类和分割，优于以往的无监督学习方法。此外，消融研究验证了我们的方法在更好地理解点云方面的潜力。

● 论文链接：https://arxiv.org/abs/2203.00680

● 论文代码：https://github.com/mohamedafham/crosspoint

● 数据集：ShapeNet,ModelNet

● 论文视频：（待更新）

● 作者单位：莫拉图瓦大学、悉尼佛大学

【从许多休闲视频中构建可动画的3D神经模型】BANMo: Building Animatable 3D Neural Models from Many Casual Videos

● 论文摘要：之前关于铰接式三维形状重建的工作通常依赖于专门的传感器(如同步多摄像机系统)，或预先构建的三维可变形模型(如SMAL或SMPL)。这些方法不能扩展到野外的不同对象集。我们提出BANMo，一种既不需要专门的传感器也不需要预定义的模板形状的方法。BANMo在一个可区分的渲染框架中，从许多单目休闲视频中构建高保真、铰连的3D模型(包括形状和动画皮肤权重)。虽然许多视频的使用提供了更多的摄像机视图和物体清晰度的覆盖，但它们在建立不同背景、光照条件等场景之间的对应关系方面带来了重大挑战。我们的主要观点是融合三个学派的思想;(1)利用关节骨和混合皮肤的经典变形形状模型，(2)适用于基于梯度的优化的体积神经辐射场(NeRFs)，以及(3)生成像素和关节模型之间对应的规范嵌入。我们引入神经混合蒙皮模型，允许可微和可逆铰接变形。当与规范嵌入相结合时，这样的模型允许我们在视频之间建立密集的对应关系，这些对应关系可以通过周期一致性进行自我监督。在真实数据集和合成数据集上，BANMo展示了比之前的人类和动物作品更高保真度的3D重建，能够从新颖的视角和姿势呈现逼真的图像。

● 论文主页：https://banmo-www.github.io/

● 论文链接：https://arxiv.org/abs/2112.12761

● 论文代码：https://github.com/facebookresearch/banmo

● 数据集：AMA

● 论文视频：https://banmo-www.github.io/cats.html

● 作者单位：Meta、卡耐基梅隆大学

【隐形衣人从正常人身上获得】ICON: Implicit Clothed humans Obtained from Normals

● 论文摘要：目前，学习逼真的、可动画的3D服装化身的方法，要么是3D扫描，要么是2D图像，仔细控制用户的姿势。相比之下，我们的目标是通过2D图像了解人物的形象。给定一组图像，我们的方法从每幅图像中估算出详细的3D表面，然后将它们组合成一个可动画的化身。隐式函数非常适合第一个任务，因为它们可以捕捉头发或衣服等细节。然而，目前的方法对各种各样的人体姿态都不稳定，而且常常产生骨折或脱离身体的肢体、缺失细节或非人类形状的3D表面。问题是这些方法使用的全局特征编码器是敏感的全局姿态。为了解决这个问题，我们提出了ICON(“从法线中获得的隐含衣人”)，它使用了局部特征。ICON有两个主要模块，它们都利用了SMPL(-X)主体模型。首先，ICON以SMPL(-X)正常人为条件，推断出人体的详细服装(正面/背面)。其次，一个可见性感知的隐式表面回归器产生一个人类占有场的等表面。重要的是，在推理时，一个反馈循环在使用推断穿衣法线细化SMPL(-X)网格和细化法线之间交替进行。给定一个主体在不同姿势下的多个重建帧，我们使用SCANimate来产生一个可动画的化身。对AGORA和CAPE数据集的评估表明，即使在训练数据非常有限的情况下，ICON在重建方面的表现也优于目前的技术水平。此外，它对非分布样本更加健壮，例如在野外的姿势/图像和帧外裁剪。ICON从野外的图像中向强大的3D人体重建迈出了一步。这使得可以直接从视频中创建具有个性化和自然姿势依赖的布料变形的化身。

● 论文主页：https://icon.is.tue.mpg.de/

● 论文链接：https://arxiv.org/abs/2112.09127

● 论文代码：https://github.com/YuliangXiu/ICON

● 数据集：AGORA

● 论文视频：https://youtu.be/ZufrPvooR2Q

● 作者单位：马克斯·普朗克智能系统研究所

【可控图像合成与编辑的合成生成先验学习】SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

● 论文摘要：最近的研究表明，StyleGANs为图像合成和编辑的下游任务提供了有前途的预先模型。然而，由于StyleGANs的潜代码是设计来控制全局样式的，因此很难对合成的图像实现细粒度的控制。我们提出了SemanticStyleGAN，它训练一个生成器分别建模局部语义部分，并以合成的方式合成图像。不同局部部位的结构和纹理由相应的潜码控制。实验结果表明，我们的模型提供了不同空间区域之间的强解纠缠。当与为StyleGANs设计的编辑方法相结合时，它可以实现更细粒度的控制来编辑合成的或真实的图像。该模型还可以通过迁移学习扩展到其他领域。因此，作为一个具有内置解纠缠的通用先验模型，它可以促进基于gan的应用程序的开发，并支持更多潜在的下游任务。

● 论文主页：https://semanticstylegan.github.io/

● 论文链接：https://arxiv.org/abs/2112.02236

● 论文代码：（待更新）

● 数据集：FFHQ，DeepFashion

● 论文视频：https://semanticstylegan.github.io/videos/demo.mp4

● 作者单位：字节跳动

【基于归一化切割的无监督对象发现的自监督变压器】Self-Supervised Transformers for Unsupervised Object Discovery using Normalized Cut

● 论文摘要：使用自蒸馏损失(DINO)进行自监督学习训练的变形金刚已经被证明可以生成突出突出前景物体的注意力地图。在本文中，我们演示了一种基于图的方法，它使用自监督变压器特性从图像中发现对象。视觉标记被视为加权图中的节点，其边表示基于标记相似性的连接性得分。然后，前台对象可以使用一种归一化的图形分割来分组自相似的区域。我们利用谱聚类和广义特征分解来解决图切割问题，并表明第二最小特征向量提供了切割解决方案，因为它的绝对值表明令牌属于前景对象的可能性。尽管这种方法很简单，但它显著提高了无监督对象发现的性能:我们在VOC07、VOC12和COCO20K上比最新的LOST技术分别提高了6.9%、8.1%和8.1%。通过添加第二阶段的类无关检测器(CAD)，可以进一步提高性能。我们提出的方法可以很容易地推广到无监督显著性检测和弱监督目标检测。对于无监督显著性检测，我们将ECSSD、DUTS、DUT-OMRON上的IoU分别提高了4.9%、5.2%、12.9%。对于弱监督目标检测，我们在CUB和ImageNet上实现了竞争性能。

● 论文主页：https://www.m-psi.fr/Papers/TokenCut2022/

● 论文链接：https://arxiv.org/abs/2202.11539

● 论文代码：https://github.com/YangtaoWANG95/TokenCut

● 数据集：ImageNet，COCO

● demo：https://huggingface.co/spaces/akhaliq/TokenCut

● 作者单位：格勒诺布尔阿尔卑斯大学、腾讯AI实验室、三星AI中心、MIT等

【Swin Transformer V2：扩展容量和分辨率】Swin Transformer V2: Scaling Up Capacity and Resolution

● 论文摘要：我们提供了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1,536×1,536分辨率的图像进行训练。通过扩大容量和分辨率，Swin Transformer在四个有代表性的视觉基准上创下了新的记录:ImageNet-V2图像分类84.0%的top-1精度，COCO对象检测63.1/54.4 box/mask mAP, ADE20K语义分割59.9 mIoU, kinetic400视频动作分类86.8%的top-1精度。我们的技术一般适用于扩大视觉模型，但没有像NLP语言模型那样得到广泛的探索，部分原因是在培训和应用方面存在以下困难:1)视觉模型在尺度上经常面临不稳定性问题，2)许多下游视觉任务需要高分辨率的图像或Windows，目前尚不清楚如何有效地将在低分辨率下训练的模型转换为高分辨率的模型。当图像分辨率较高时，GPU内存消耗也是一个问题。为了解决这些问题，我们提出了几个技术，并以Swin Transformer为例进行了说明:1)后归一化技术和缩放余弦注意方法，以提高大视觉模型的稳定性;2)对数间隔连续位置偏置技术，有效地将在低分辨率图像和Windows下训练的模型传递给高分辨率的对应模型。此外，我们分享了我们的关键实现细节，这将导致显著节省GPU内存消耗，从而使使用常规GPU训练大型视觉模型成为可能。通过使用这些技术和自我监督的预训练，我们成功地训练了强大的3B Swin Transformer模型，并有效地将其转换到涉及高分辨率图像或窗口的各种视觉任务，在各种基准上实现了最先进的精度。

● 论文链接：https://arxiv.org/abs/2111.09883

● 论文代码：https://github.com/microsoft/Swin-Transformer

● 数据集：ImageNet，COCO

● 作者单位：微软亚洲研究院

【野外时钟模拟阅读】It's About Time: Analog Clock Reading in the Wild ● 论文摘要：在这篇论文中，我们提出了一个框架来阅读模拟时钟在自然图像或视频。具体来说，我们做出了以下贡献:首先，我们创建了一个可伸缩的管道来生成合成时钟，大大减少了对劳动密集型注释的需求;其次，提出了一种基于空间变压器网络(STN)的时钟识别体系结构，对其进行端到端的时钟校准和识别。我们表明，在提出的合成数据集上训练的模型以良好的精度推广到真实时钟，倡导Sim2Real训练制度;第三，为了进一步缩小模拟和真实数据之间的差距，我们利用时间的特殊属性，即均匀性，在真实的无标签时钟视频上生成可靠的伪标签，并表明对这些视频的训练提供了进一步的改进，同时仍然不需要手工标注。最后，我们介绍了三种基于COCO、Open Images和The Clock电影的基准数据集，共4472幅带有时钟的图像，对时间进行了完整的注释，精确到分钟。

● 论文主页：https://charigyang.github.io/abouttime/

● 论文链接：https://arxiv.org/abs/2111.09162

● 论文代码：https://github.com/charigyang/itsabouttime

● 数据集：COCO

● 作者单位：牛津大学

【一种新颖的单对变压器的人机交互两阶段有效检测】Efficient Two-Stage Detection of Human–Object Interactions with a Novel Unary–Pairwise Transformer

● 论文摘要：最近在transformer模型的可视化数据的发展已经导致了识别和检测任务的显著改进。特别是，使用可学习查询代替区域建议已经产生了一类新的单阶段检测模型，其先锋是Detection Transformer(DETR)。自那以来，这种单阶段方法的变体一直主导着人机交互(HOI)检测。然而，这种单级HOI探测器的成功很大程度上归功于变压器的表现能力。我们发现，当配备相同的变压器时，两级变压器的性能和内存效率更高，同时训练时间更短。在这项工作中，我们提出了一元-两两变压器，一个二级检测器，利用一元和两两表示的HOIs。我们观察到，变压器网络的一元部分和两两部分是专一的，前者优先增加正面例子的分数，后者则减少负面例子的分数。我们在HICO-DET和V-COCO数据集上评估了我们的方法，并显著优于最先进的方法。在推理时，我们使用ResNet50的模型在单个GPU上接近实时性能。

● 论文主页：Unary–Pairwise Transformers

● 论文链接：https://arxiv.org/pdf/2112.01838.pdf

● 论文代码：GitHub - fredzzhang/upt: Official PyTorch implementation for CVPR2022 paper "Efficient Two-Stage Detection of Human–Object Interactions with a Novel Unary–Pairwise Transformer"

● 作者单位：澳大利亚国立大学、牛津大学、澳大利亚机器人视觉中心

【鲁棒等变成像:一个学习从噪声和部分测量中成像的完全无监督框架】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements Transformer

● 论文摘要：深度网络在从医学成像到计算摄影的多重成像逆问题中提供了最先进的性能。然而，大多数现有的网络都是用干净的信号训练的，这通常很难或不可能获得。等变成像(EI)是一种最新的自我监督学习框架，它利用信号分布中的群体不变性，仅从部分测量数据学习重构函数。虽然EI的结果令人印象深刻，但它的性能随着噪声的增加而下降。在本文中，我们提出了一个鲁棒等变成像(REI)框架，它可以学习图像从噪声部分测量单独。该方法使用Stein’s Unbiased Risk Estimator (SURE)来获得对噪声具有鲁棒性的完全无监督训练损失。我们表明，REI在线性和非线性逆问题上带来了可观的性能增益，从而为深度网络的鲁棒无监督成像铺平了道路。

● 论文链接：https://arxiv.org/pdf/2111.12855.pdf

● 论文代码：https://github.com/edongdongchen/REI

● 作者单位：爱丁堡大学

【使用多模态Transformer的端到端视频对象分割】End-to-End Referring Video Object Segmentation with Multimodal Transformer

● 论文摘要：参考视频对象分割任务 (RVOS) 涉及在给定视频的帧中分割文本参考对象实例。由于这种多模式任务的复杂性，它结合了文本推理、视频理解、实例分割和跟踪，现有方法通常依赖复杂的管道来解决它。在本文中，我们提出了一种简单的基于 Transformer 的 RVOS 方法。我们的框架称为多模态跟踪变压器 (MTTR)，将 RVOS 任务建模为序列预测问题。随着计算机视觉和自然语言处理的最新进展，MTTR 是基于这样一种认识，即视频和文本都可以通过单个多模态 Transformer 模型有效而优雅地一起处理。MTTR 是端到端可训练的，没有与文本相关的感应偏置组件，并且不需要额外的掩码细化后处理步骤。因此，与现有方法相比，它大大简化了 RVOS 管道。对标准基准的评估表明，MTTR 在多个指标上明显优于以前的技术。特别是，MTTR 在 A2D-Sentences 和 JHMDB-Sentences 数据集上分别显示了令人印象深刻的 +5.7 和 +5.0 mAP 增益，同时每秒处理 76 帧。此外，我们报告了公开验证集Refer-YouTube-VOS 的强大结果，这是一个更具挑战性的 RVOS 数据集，尚未受到研究人员的关注。

● 论文视频：https://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4

● 论文链接：https://arxiv.org/abs/2111.14821

● 论文代码：https://github.com/mttr2021/MTTR

● 作者单位：以色列理工学院

【基于遗传医学影像的自我监督多模态对比学习】ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics

● 论文摘要：在将现代深度学习架构应用于临床相关的医疗用例时，高昂的标注成本是一个实质性的瓶颈，这证实了从未标注数据中学习新算法的需求。在这项工作中，我们提出了ContIG，一种自我监督的方法，可以从大量的未标记医学图像和遗传数据中学习。我们的方法校准图像和几个遗传模式在特征空间使用对比损失。我们设计了一种方法来整合同一模型中每个个体的多种模式，即使可用模式因个体而异。我们的程序在所有评估下游基准测试任务上优于最先进的自我监督方法。我们还适应了基于梯度的可解释算法，以更好地理解图像和遗传模式之间的交叉模态关联。最后，我们对我们的模型学习到的特征进行全基因组关联研究，揭示了图像和遗传数据之间有趣的关系。

● 论文链接：https://arxiv.org/abs/2111.13424

● 作者单位：波茨坦大学等

【深层生成网络流形的均匀采样，无需再训练】MaGNET: Uniform Sampling from Deep Generative Network Manifolds Without Retraining

● 论文摘要：深度生成网络(DGNs)广泛应用于生成对抗网络(GANs)、变分自编码器(VAEs)及其变体中，以逼近数据流形和分布。然而，由于采集成本或采集方便，训练样本往往以非均匀的方式分布在流形上。例如，CelebA数据集包含很大一部分笑脸。当从训练好的DGN中采样时，这些不一致性将会重现，这并不总是首选的，例如，为了公平或数据扩充。作为回应，我们开发了MaGNET，这是一种新颖的、理论驱动的潜在空间采样器，适用于任何预先训练的DGN，它产生的样本均匀分布在学习的流形上。我们在不同的数据集和dgn上进行了一系列的实验，例如，对于在FFHQ数据集上训练的最先进的StyleGAN2，通过MaGNET进行均匀抽样，在不需要标签或重新训练的情况下，分布精度和召回率提高了4.1%和3.0%，性别偏差降低了41.2% %。由于均匀分布并不意味着均匀语义分布，我们还分别探讨了MaGNET抽样下生成的样本的语义属性如何变化。

● 论文链接：https://arxiv.org/abs/2110.08009

● 论文代码：https://github.com/AhmedImtiazPrio/MaGNET

● 数据集：ImageNet，MNIST

● 作者单位：莱斯大学

【StyleGAN反演与超网络的真实图像编辑】HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing

● 论文摘要：将真实图像反演到StyleGAN的潜空间是一个研究得很深入的问题。然而，由于重建和可编辑性之间的内在平衡，将现有方法应用于真实场景仍然是一个开放的挑战:可以准确表示真实图像的潜在空间区域通常受到降级的语义控制。最近的工作建议通过微调生成器，将目标图像添加到行为良好的、可编辑的潜在空间区域，从而减轻这种权衡。虽然很有希望，但这种微调方案并不适合广泛使用，因为它需要对每一张新图像进行长时间的训练。在这项工作中，我们将这种方法引入到基于编码器的反演领域。我们提出了HyperStyle，一个学习调整StyleGAN的权值来忠实地表达潜在空间的可编辑区域的给定图像的超网络。单纯的调制方法需要训练一个具有超过30亿个参数的超网络。通过仔细的网络设计，我们减少了这与现有的编码器一致。HyperStyle生成的重构可与优化技术相比，具有编码器的近实时推理能力。最后，我们展示了HyperStyle在几种应用程序上的有效性，包括编辑训练中从未见过的域外图像。

● 论文主页：https://yuval-alaluf.github.io/hyperstyle/

● 论文链接：https://arxiv.org/abs/2111.15666

● 论文代码：https://github.com/yuval-alaluf/hyperstyle

● 数据集：FFHQ，CelebA-HQ

● 作者单位：以色列特拉维夫大学

【噪声标签的邻域一致性学习】Learning with Neighbor Consistency for Noisy Labels

● 论文摘要：最近在深度学习方面的进展依赖于大型的标记数据集来训练高容量模型。然而，以时间和成本效益的方式收集大型数据集往往导致标签噪声。我们提出了一种从噪声标签学习的方法，该方法利用了特征空间中训练示例之间的相似性，鼓励每个示例的预测与最近的邻居相似。与使用多个模型或不同阶段的训练算法相比，我们的方法采用了一个简单的、额外的正则化术语的形式。它可以解释为经典的，转导标签传播算法的归纳版本。我们彻底评估了我们的方法在数据集上评估合成(CIFAR-10, CIFAR-100)和现实(mini-WebVision, Clothing1M, mini-ImageNet-Red)噪声，并在所有这些噪声中实现了具有竞争力的或最先进的精度。

● 论文链接：https://arxiv.org/abs/2202.02200

● 论文代码：https://github.com/yuval-alaluf/hyperstyle

● 数据集：CIFAR-10，CIFAR-100

● 作者单位：google、阿德莱德大学

【Transformer的表结构】TableFormer: Table Structure Understanding with Transformers

● 论文摘要：表以简洁紧凑的表示方式组织有价值的内容。这些内容对于搜索引擎、知识图谱等系统非常有价值，因为它们增强了它们的预测能力。不幸的是，桌子有各种各样的形状和大小。此外，它们可以有复杂的列/行头配置、多行、不同种类的分隔行、缺少条目等。因此，从图像中正确识别表结构是一项艰巨的任务。本文提出了一种新的表结构识别模型。后者在两个重要方面改进了最新的端到端深度学习模型(即PubTabNet的encoder-dual-decoder)。首先，我们介绍了一种新的表单元格对象检测解码器。通过这种方式，我们可以直接从PDF源代码中获得可编程PDF的表格单元格的内容，从而避免了自定义OCR解码器的训练。这种架构上的变化导致了更精确的表内容提取，并允许我们处理非英语表。其次，我们将LSTM解码器替换为基于转换器的解码器。这一升级显著提高了以前最先进的树编辑距离分数(TEDS)，在简单表上从91%提高到98.5%，在复杂表上从88.7%提高到95%。

● 论文链接：https://arxiv.org/abs/2203.01017

● 作者单位：IBM

【基于Tracklet查询和建议的高效视频实例分割】Efficient Video Instance Segmentation via Tracklet Query and Proposal

● 论文摘要：视频实例分割(Video Instance Segmentation, VIS)旨在同时对视频中的多个对象实例进行分类、分割和跟踪。本文提出了一个具有高效训练和推理的全端到端框架EfficientVIS。其核心是tracklet查询和tracklet提议，通过迭代的查询-视频交互将感兴趣区域跨时空关联和分割。我们进一步提出了一种函授学习方法，使片段之间的轨迹链接端到端可学习。与VisTR相比，EfficientVIS在YouTubeVIS基准上实现最先进的精度时，需要更少的15倍的训练时间。同时，我们的方法使整个视频实例分割在一个端到端传递，而不需要任何数据关联。

● 论文主页：https://jialianwu.com/projects/EfficientVIS.html

● 论文视频：https://youtu.be/sSPMzgtMKCE

● 作者单位：纽约州立大学布法罗分校、Amazon

【利用超网络改进StyleGAN反演】HyperInverter: Improving StyleGAN Inversion via Hypernetwork

● 论文摘要：由于对GAN潜在空间的探索和利用，近年来真实世界的图像处理取得了惊人的进展。GAN反演是该流程的第一步，目的是将真实图像忠实地映射到潜码。不幸的是，现有的GAN反演方法不能满足以下三个要求中的至少一个:高重构质量、可编辑性和快速推理。在本研究中，我们提出了一种新颖的两阶段策略，可以同时满足所有的要求。在第一阶段，我们训练一个编码器将输入图像映射到StyleGAN2 W-space，它被证明具有很好的可编辑性，但重构质量较低。在第二阶段，我们利用一系列的超网络来补充初始阶段的重建能力，以恢复反演过程中缺失的信息。这两个步骤相辅相成，由于超网络分支和优异的可编辑性，由于在w空间进行反演，产生了高重构质量。我们的方法是完全基于编码器的，从而产生非常快的推理。在两个具有挑战性的数据集上的大量实验证明了该方法的优越性。

● 论文主页：https://di-mi-ta.github.io/HyperInverter/

● 论文链接：https://arxiv.org/abs/2112.00719

● 论文视频：https://youtu.be/sSPMzgtMKCE

● 作者单位：VinAI Research, Vietnam

【用于密集预测的多路径视觉Transformer】MPViT: Multi-Path Vision Transformer for Dense Prediction

● 论文摘要：密集的计算机视觉任务，如目标检测和分割，需要有效的多尺度特征表示来检测或分类不同大小的目标或区域。虽然卷积神经网络(cnn)一直是此类任务的主导架构，但最近推出的Vision transformer (vit)旨在取代卷积神经网络成为主干。与cnn类似，vit为具有单尺度patch的多尺度表示构建了一个简单的多阶段结构(即细到粗)。在本研究中，我们以不同于现有Transformer的视角，探索多尺度的贴片嵌入和多路径结构，构建了多路径视觉转换器(MPViT)。MPViT嵌入相同大小~的特征。利用重叠卷积patch嵌入方法，同时获取不同尺度的patch。然后，通过多个路径将不同规模的令牌独立地输入到Transformer编码器中，并聚合得到的特性，从而在相同的特性级别上实现细特性表示和粗特性表示。由于具有不同的、多尺度的特征表示，我们的MPViTs从微小~(5M)到基~(73M)的缩放，在ImageNet分类、对象检测、实例分割和语义分割方面，始终能够实现比最先进的Vision transformer更好的性能。这些广泛的结果表明，MPViT可以作为一个通用的骨干网用于各种视觉任务。

● 论文链接：https://arxiv.org/abs/2112.11010

● 论文代码：https://github.com/youngwanLEE/MPViT

● 作者单位：韩国电子与电信研究所(ETRI)、韩国高等科学技术学院(KAIST)、AITRICS

【直接可微摄像机姿态估计】DiffPoseNet: Direct Differentiable Camera Pose Estimation

● 论文摘要：目前用于相机姿态估计的深度神经网络方法依赖于场景结构进行三维运动估计，但这降低了鲁棒性，使得跨数据集泛化困难。相比之下，传统的从运动估计结构的方法，利用光流估计三维运动，然后计算深度。然而，它们的准确性在很大程度上取决于光流的质量。为了避免这一问题，人们提出了直接的方法，将三维运动与深度估计分离开来，但只使用正常流形式的图像梯度来计算三维运动。在本文中，我们介绍了一个网络NFlowNet，用于正常的流量估计，用于增强鲁棒和直接的约束。特别地，法向流用于基于手性(深度正性)约束估计相对相机位姿。我们通过将优化问题表述为一个可微分的手性层来实现这一点，它允许端到端学习相机的姿态。我们对提出的DiffPoseNet对噪声的敏感性及其跨数据集的泛化进行了广泛的定性和定量评估。我们将我们的方法与现有的最先进的方法进行了比较，在KITTI、TartanAir和tumrgbd数据集上显示了高达3.4倍的改进。

● 论文链接：https://prg.cs.umd.edu/research/DiffPoseNet_files/DiffPoseNet.pdf ● 作者单位：美国马里兰大学

【基于语言的视频编辑多模式多级Transformer】Language-based Video Editing via Multi-Modal Multi-Level Transformer

● 论文摘要：视频编辑工具在数字化设计中得到了广泛的应用。尽管对这些工具的需求很高，但对这些工具的先验知识要求使得新手很难上手。能够遵循自然语言指令执行自动编辑的系统将显著提高可访问性。本文介绍了基于语言的视频编辑(LBVE)任务，该任务允许模型在文本指导下将源视频编辑成目标视频。LBVE具有两个特点:1)保留了源视频的场景，而不是生成一个完全不同的视频;2)语义在目标视频中呈现不同，所有的变化都由给定的指令控制。我们提出一种多模态多级变压器(M3L-Transformer)来实现LBVE。M3L-Transformer动态学习不同层次的视频感知和语言语义之间的对应关系，有利于视频理解和视频帧合成。我们构建了三个新的评估数据集，包括两个诊断数据集和一个来自带有人类标记文本的自然视频。大量的实验结果表明，M3L-Transformer是一种有效的视频编辑方法，LBVE可以为视觉和语言的研究开辟一个新的领域。 ● 论文链接：https://arxiv.org/abs/2104.01122

● 作者单位：UC Santa Barbara、UC Santa Cruz

【可控三维人工合成的表面定向神经辐射场】Surface-Aligned Neural Radiance Fields for Controllable 3D Human Synthesis

● 论文摘要：提出了一种基于稀疏多视角RGB视频重构可控隐式三维人体模型的新方法。我们的方法定义了网格表面点上的神经场景表示，并从人体网格表面签名的距离。我们确定了一个不可区分的问题，当3D空间中的一个点被映射到一个网格上最近的表面点，以学习表面对齐的神经场景表示。为了解决这个问题，我们提出用修正顶点法线的重心插值将一个点投影到网格表面上。在ZJU-MoCap和Human3.6M数据集上进行的实验表明，与现有方法相比，我们的方法在新视角和新姿态的合成中获得了更高的质量。我们也证明了我们的方法很容易支持对体型和衣服的控制。

● 论文链接：https://arxiv.org/abs/2201.01683

● 作者单位：东京大学

【基于完全经验重放的贝叶斯稀疏网络学习持续学习】Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning

● 论文摘要：持续学习(CL)方法旨在使机器学习模型在学习新任务时不会灾难性地忘记之前已经掌握的内容。现有的CL方法通常会对之前看到的样本进行缓冲，进行知识蒸馏，或者使用正则化技术来实现这一目标。尽管他们表现出色，但他们仍然会受到任务间干扰的影响，从而导致灾难性的遗忘。为了改善这一问题，我们提出在任何阶段只激活和选择稀疏的神经元来学习当前和过去的任务。这样就可以为未来的任务保留更多的参数空间和模型容量。这将使不同任务的参数之间的干扰最小化。为此，我们提出了一种用于持续学习的稀疏神经网络(SNCL)，该网络利用变分贝叶斯稀疏先验对各层神经元的激活情况进行处理。全体验重放(Full Experience Replay, FER)为学习不同层次神经元的稀疏激活提供了有效的监督。提出了一种丢失感知的储层采样策略来维护内存缓冲区。该方法对于网络结构和任务边界是不可知的。在不同数据集上的实验表明，我们的方法在减轻遗忘方面达到了最先进的性能。

● 论文链接：https://arxiv.org/abs/2202.10203

● 作者单位：新南威尔士大学、阿德莱德大学

【单目3D语义场景完成】MonoScene: Monocular 3D Semantic Scene Completion

● 论文摘要：提出了一个三维语义场景完成(SSC)框架，其中场景的密集几何和语义是由单目RGB图像推断出来的。与SSC文献不同，我们依靠2.5或3D输入，解决了2D到3D场景重建的复杂问题，同时联合推断其语义。我们的框架依赖于连续的2D和3D UNets，它由一种新颖的2D-3D特征投影连接起来，这种投影来源于光学，并在执行空间语义一致性之前引入了3D上下文关系。在建筑贡献的同时，我们介绍了新颖的全球场景和当地的圆锥台的损失。实验表明，我们在所有指标和数据集上的表现都优于文献，即使在相机视野之外，我们也能幻想出似是而非的风景。

● 论文主页：https://cv-rits.github.io/MonoScene/

● 论文链接：https://arxiv.org/abs/2112.00726

● 论文代码：https://github.com/cv-rits/MonoScene

● 作者单位：法国国家信息与自动化研究所（INRIA）

【基于实体提示的视频和语言预训练】Align and Prompt: Video-and-Language Pre-training with Entity Prompts

● 论文摘要：视频和语言的前训练在各种下游任务上显示出了有希望的改进。以前的大多数方法使用基于变压器的多模态编码器捕获交叉模态交互，没有完全解决单模态视频和文本特征之间的不对齐问题。此外，学习细粒度的视觉语言对齐通常需要现成的对象检测器来提供对象信息，这受到检测器词汇量有限和昂贵的计算成本的限制。我们提出对齐和提示:一个高效和有效的视频和语言前训练框架，具有更好的跨模式对齐。首先，我们引入了一种视频文本对比(VTC)损失来对齐实例级的单模态视频文本特征，这简化了交叉模态交互的建模。然后，我们提出了一种新的基于视觉的预训练任务，即实体建模(PEM)，旨在学习细粒度的区域-实体对齐。为了实现这一点，我们首先引入了一个实体提示模块，VTC对它进行训练，以产生视频裁剪和文本提示之间的相似性，实例化的实体名称。然后PEM任务要求模型预测随机选择的视频作物的实体伪标签(即~归一化相似度分数)。得到的预训练模型在文本-视频检索和视频质量保证(videoQA)方面都达到了最先进的性能，大大超过了之前的工作。

● 论文链接：https://arxiv.org/abs/2112.09583

● 论文代码：https://github.com/salesforce/alpro

● 作者单位：Salesforce Research、澳大利亚国立大学

【基于梯度核的持续学习重放缓冲区选择】GCR: Gradient Coreset Based Replay Buffer Selection For Continual Learning

● 论文摘要：持续学习(CL)的目标是开发一种技术，通过这种技术，单个模型可以适应顺序遇到的越来越多的任务，从而以一种资源高效的方式潜在地利用跨任务的学习。CL系统的一个主要挑战是灾难性遗忘，即在学习新任务时忘记早期的任务。为了解决这个问题，基于重放的CL方法在一个小的缓冲区上对所遇到的任务中选择的数据进行维护和反复的再训练。我们提出了梯度核心重放(GCR)，这是一种利用精心设计的优化准则进行重放缓冲区选择和更新的新策略。具体来说，我们选择并保持一个“核心”，该核心接近于迄今为止所看到的所有数据的梯度，与当前的模型参数，并讨论其在持续学习设置中有效应用所需的关键策略。在经过充分研究的离线持续学习环境中，我们显示出了显著的进步(绝对2%-4%)。我们的研究结果也有效地应用到在线/流CL设置中，显示比现有方法提高了5%。最后，我们证明了监督对比损失对于持续学习的价值，当与我们的子集选择策略相结合时，它可以产生高达5%的累积增益。

● 论文链接：https://arxiv.org/abs/2111.11210

● 作者单位：印度理工学院(ISM)、德州大学达拉斯分校、Google

【多模态视频字幕的端到端生成预训练】End-to-end Generative Pretraining for Multimodal Video Captioning

● 论文摘要：最近的视频和语言前训练框架缺乏生成句子的能力。我们提出了多模态视频生成预训练(MV-GPT)，这是一个新的用于从无标签视频学习的预训练框架，它可以有效地用于生成任务，如多模态视频字幕。与最近的视频语言预训练框架不同，我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标签视频中字幕的缺乏，我们利用未来话语作为一个额外的文本源，并提出一个双向生成目标——我们在当前多模态语境下生成未来话语，在未来观察下也生成当前话语。基于此目标，我们训练一个端到端的编码器-解码器模型来直接从原始像素和转录语音生成标题。我们的模型在四个标准基准上的多模态视频字幕以及其他视频理解任务(如VideoQA、视频检索和动作分类)上都达到了最先进的性能。

● 论文链接：https://arxiv.org/abs/2201.08264

● 作者单位：Google Research

【一个完全无监督的框架，用于学习从噪声和部分测量图像】Robust Equivariant Imaging: a fully unsupervised framework for learning to image from noisy and partial measurements

● 论文链接：https://arxiv.org/abs/2111.12855

● 论文代码：https://github.com/edongdongchen/rei

● 作者单位：爱丁堡大学

【通过随机收缩加速逆问题的条件扩散模型】Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models for Inverse Problems through Stochastic Contraction

● 论文摘要：由于其作为生成模型的强大性能，扩散模型最近在社区中引起了极大的兴趣。此外，它在逆问题中的应用已经证明了最先进的性能。不幸的是，扩散模型有一个严重的缺点——它们本质上采样速度很慢，需要几千步迭代才能从纯高斯噪声生成图像。在这项工作中，我们表明从高斯噪声开始是不必要的。相反，从具有更好初始化的单个正向扩散开始显着减少了反向条件扩散中的采样步骤数。这种现象由随机差分方程的收缩理论正式解释，例如我们的条件扩散策略 - 反向扩散的交替应用，然后是非扩展数据一致性步骤。新的采样策略，称为 Come-Closer-Diffuse-Faster (CCDF)，还揭示了如何将现有的用于逆问题的前馈神经网络方法与扩散模型协同结合的新见解。超分辨率、图像修复和压缩感知 MRI 的实验结果表明，我们的方法可以在显着减少采样步骤的情况下实现最先进的重建性能。

● 论文链接：https://arxiv.org/abs/2112.05146

● 作者单位：韩国科学技术院(KAIST)

【单幅图像向神经辐射场平移的无监督条件π-GAN】Pix2NeRF: Unsupervised Conditional π-GAN for Single Image to Neural Radiance Fields Translation

● 论文摘要：我们提出了一种管道来生成对象或特定类别的场景的神经辐射场~（NeRF），以单个输入图像为条件。这是一项具有挑战性的任务，因为训练 NeRF 需要同一场景的多个视图，以及难以获得的相应姿势。我们的方法基于 π-GAN，这是一种用于无条件 3D 感知图像合成的生成模型，它将随机潜在代码映射到一类对象的辐射场。我们联合优化 (1) π-GAN 目标以利用其高保真 3D 感知生成和 (2) 精心设计的重建目标。后者包括一个与 π-GAN 生成器耦合的编码器，以形成一个自动编码器。与之前的小样本 NeRF 方法不同，我们的管道是无监督的，能够在没有 3D、多视图或姿势监督的情况下使用独立图像进行训练。我们管道的应用包括 3d 头像生成、以对象为中心的具有单个输入图像的新颖视图合成以及 3d 感知超分辨率等。

● 论文链接：https://arxiv.org/abs/2202.13162

● 论文代码：https://github.com/HexagonPrime/Pix2NeRF

● 作者单位：苏黎世联邦理工学院

【基于单车载摄像机图像的保持拓扑的局部路网估计】Topology Preserving Local Road Network Estimation from Single Onboard Camera Image Translation

● 论文摘要：道路网络拓扑的知识对于自主规划和导航至关重要。然而，仅部分探索了从单个图像中恢复这种拓扑结构。此外，它还需要参考地平面，也就是在该地平面上执行驱动操作。本文旨在直接在鸟瞰图 (BEV) 中提取本地道路网络拓扑结构，所有这些都位于复杂的城市环境中。唯一的输入包括单个板载前视摄像头图像。我们使用一组有向车道曲线及其交互来表示道路拓扑，这些交互是使用它们的交叉点捕获的。为了更好地捕捉拓扑，我们引入了\emph{最小循环}的概念及其覆盖。最小循环是由有向曲线段（两个交点之间）形成的最小循环。封面是一组曲线，其分段参与形成最小循环。我们首先表明覆盖足以唯一地表示道路拓扑。然后使用覆盖物来监督深度神经网络，以及车道曲线监督。这些学习从单个输入图像预测道路拓扑。NuScenes 和 Argoverse 基准测试的结果明显优于使用基线获得的结果。我们的源代码将公开。

● 论文链接：https://arxiv.org/abs/2112.10155

● 作者单位：苏黎世联邦理工学院、荷语天主教鲁汶大学

【混合扩散:自然图像的文本驱动编辑】Blended Diffusion: Text-driven Editing of Natural Images

● 论文摘要：自然语言为图像编辑提供了一个高度直观的界面。在本文中，我们介绍了第一个基于自然语言描述和 ROI 掩码在通用自然图像中执行局部（基于区域）编辑的解决方案。我们通过利用和组合预训练的语言图像模型 (CLIP) 来实现我们的目标，将编辑转向用户提供的文本提示，并使用去噪扩散概率模型 (DDPM) 来生成看起来自然的结果。为了将编辑区域与图像的未更改部分无缝融合，我们在空间上混合了输入图像的噪声版本与局部文本引导的扩散潜伏在噪声水平的进展中。此外，我们表明在扩散过程中添加增强可以减轻对抗性结果。我们在定性和定量方面与几个基线和相关方法进行了比较，并表明我们的方法在整体真实感、保留背景和匹配文本的能力方面优于这些解决方案。最后，我们展示了几个文本驱动的编辑应用程序，包括向图像添加新对象、删除/替换/更改现有对象、背景替换和图像外推。

● 论文主页：https://omriavrahami.com/blended-diffusion-page/

● 论文链接：https://arxiv.org/abs/2111.14818

● 论文代码：https://github.com/omriav/blended-diffusion

● 作者单位：耶路撒冷希伯来大学、赫兹利亚跨学科研究中心

【多摄像头多人跟踪的提升多剪辑优化】LMGP: Lifted Multicut Optimization for Multi-Camera Multi-People Tracking

● 论文摘要：多相机多目标跟踪目前在计算机视觉领域引起了人们的关注，因为它在现实世界的应用中具有卓越的性能，例如在拥挤场景或广阔空间中的视频监控。在这项工作中，我们提出了一种基于时空提升多切割公式的数学上优雅的多相机多目标跟踪方法。我们的模型利用单相机跟踪器产生的最先进的轨迹作为提议。由于这些 tracklet 可能包含 ID-Switch 错误，我们通过从 3D 几何投影中获得的新颖的预聚类来改进它们。因此，我们得到了一个更好的跟踪图，没有 ID 切换和更精确的数据关联阶段的亲和成本。然后，通过求解全局提升多切割公式，将轨迹与多摄像机轨迹匹配，该公式结合了位于同一摄像机和摄像机间轨迹上的短程和长程时间交互。WildTrack 数据集的实验结果产生了近乎完美的结果，优于 Campus 中最先进的跟踪器，同时与 PETS-09 数据集相当。我们将在接受论文后提供我们的实现。

● 论文链接：https://arxiv.org/abs/2111.11892

● 作者单位：马克斯·普朗克信息学研究所、汉诺威莱布尼兹大学、奥尔登堡大学、德国人工智能研究中心

【使用门控最优传输的分层形状匹配】Bending Graphs: Hierarchical Shape Matching using Gated Optimal Transport

● 论文摘要：形状匹配一直是计算机图形和视觉社区长期研究的问题。目标是预测具有一定变形程度的网格之间的密集对应关系。现有方法要么考虑采样点的局部描述，要么根据全局形状信息发现对应关系。在这项工作中，我们研究了一种分层学习设计，我们将局部补丁级信息和全局形状级结构结合到其中。这种灵活的表示可以实现对应预测，并为匹配阶段提供丰富的特征。最后，我们通过反复更新非置信节点上的特征来学习形状之间的全局一致对应关系，提出了一种新的最优传输求解器。我们在公开数据集上的结果表明，在存在严重变形的情况下具有强大的性能，无需进行广泛的训练或改进。

● 论文链接：https://arxiv.org/abs/2202.01537

● 作者单位：慕尼黑工业大学、威尼斯大学、瑞士意大利语区大学、Google

【用于6DoF物体姿态估计的粗到细表面编码】ZebraPose: Coarse to Fine Surface Encoding for 6DoF Object Pose Estimation

● 作者：Yongzhi Su, Mahdi Saleh, Torben Fetzer, Jason Rambach, Benjamin Busam, Nassir Navab, Didier Stricker, Federico Tombari

● 作者单位：慕尼黑工业大学等

【一种多阶段单镜头目标姿态估计框架】OSOP: A Multi-Stage One Shot Object Pose Estimation Framework

● 作者：Ivan Shugurov, Fu Li, Benjamin Busam, Slobodan Ilic

● 作者单位：慕尼黑工业大学等

【单目深度估计的跨模态学习】CroMo: Cross-Modal Learning for Monocular Depth Estimation

● 作者：Yannick Verdie, Jifei Song, Barnabé Mas, Benjamin Busam, Ales Leonardis, Steven McDonagh

● 作者单位：慕尼黑工业大学等

【一个多模态数据集用于具有光度挑战性的类别级目标姿态估计】PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation with Photometrically Challenging Objects

● 作者：Pengyuan Wang, HyunJun Jung, Yitong Li, Siyuan Shen, Rahul Parthasarathy Srikanth, Lorenzo Garattoni, Sven Meier, Nassir Navab, Benjamin Busam

● 作者单位：慕尼黑工业大学等

42.【学习对抗性变形点云以进行稳健的 3D 对象检测】3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D Object Detection ● 作者：Alexander Lehner, Stefano Gasperini, Alvaro Marcos-Ramiro, Mohammad-Ali Nikouei Mahani, Michael Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari ● 作者单位：慕尼黑工业大学等

43.【学习局部位移点云补全】 Learning Local Displacements for Point Cloud Completion ● 作者：Yida Wang, David Joseph Tan, Nassir Navab, Federico Tombari ● 作者单位：慕尼黑工业大学等

44.【基于几何导向点式投票的类别级对象姿态估计】GPV-Pose: Category-level Object Pose Estimation via Geometry-guided Point-wise Voting ● 作者：Yan Di, Ruida Zhang, Zhiqiang Lou, Fabian Manhardt, Xiangyang Ji, Nassir Navab, Federico Tombari ● 作者单位：慕尼黑工业大学等

45.【医学图像配准中相似度学习的变分贝叶斯方法】 A variational Bayesian method for similarity learning in medical image registration ● 作者：Daniel Grzech, Mohammad Farid Azampour, Ben Glocker, Julia Schnabel, Nassir Navab, Bernhard Kainz, Loic le Folgoc ● 作者单位：慕尼黑工业大学等

46.【学会在野外协调有序的行动】 Learning to Align Sequential Actions in the Wild ● 作者：Weizhe Liu, Bugra Tekin, Huseyin Coskun, Vibhav Vineet, Pascal Fua, Marc Pollefeys ● 作者单位：慕尼黑工业大学等

47.【用于快速鲁棒点云配准的几何Transformer】Geometric Transformer for Fast and Robust Point Cloud Registration ● 作者：Zheng Qin, Hao Yu, Changjian Wang, Yulan Guo, Yuxing Peng, Kai Xu ● 作者单位：慕尼黑工业大学等

48.【一种用于连续多任务领域适应的合成驱动数据集】SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation ● 作者：T Sun, M Segù, J Postels, Y Wang, L Van Gool, B Schiele, F Tombari, F Yu ● 作者单位：慕尼黑工业大学等

49.Do Explanations Explain? Model Knows Best ● 作者：Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab ● 作者单位：慕尼黑工业大学等

【基于大规模密集、精确和多样化数据集的单幅图像头部三维对准】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image

● 论文摘要：DAD-3DHeads包含超过3.5K地标的注释，与地面真实扫描相比，准确地代表了3D头部形状。数据驱动模型DAD-3DNet在我们的数据集上进行训练，学习形状、表情和姿态参数，并使用网格进行3D头部重建。该模型还引入了一个里程碑预测分支，以充分利用多个相关任务的丰富监督和协同训练。

● 论文主页：https://dad3dheads.netlify.app/

● 作者单位：乌克兰利沃夫大学、帝国理工学院等

【基于大规模密集、精确和多样化数据集的单幅图像头部三维对准】DAD-3D HEADS: Large-scale Dense, Accurate and Diverse Dataset for 3D Head Alignment from a Single Image

● 论文主页：https://dad3dheads.netlify.app/

● 作者单位：乌克兰利沃夫大学、帝国理工学院等

【光流网络的对抗鲁棒性研究】Towards Understanding Adversarial Robustness of Optical Flow Networks Alignment from a Single Image

● 论文摘要：最近的工作表明，光流网络对基于补丁的物理对抗攻击缺乏鲁棒性。对汽车系统的基本组件进行物理攻击的可能性是引起严重关注的一个原因。在本文中，我们分析了问题的原因并表明缺乏鲁棒性的根源在于光流估计的经典孔径问题以及网络架构细节的错误选择。我们展示了如何纠正这些错误，以使光流网络对基于补丁的物理攻击具有鲁棒性。此外，我们还研究了光流范围内的全局白盒攻击。我们发现可以精心设计有针对性的白盒攻击，以使流量估计模型偏向任何所需的输出，但这需要访问输入图像和模型权重。我们的结果表明，光流网络对普遍攻击具有鲁棒性。

● 论文链接：https://arxiv.org/abs/2103.16255

● 作者单位：弗赖堡大学

【混合搜索策略】Which Model to Transfer? Finding the Needle in the Growing Haystack

● 论文摘要：迁移学习最近被普及为从头开始训练模型的数据高效替代方案，特别是在视觉和 NLP 中，它提供了非常可靠的基线。丰富的模型存储库（例如 TensorFlow Hub）的出现使从业者和研究人员能够在广泛的下游任务中释放这些模型的潜力。随着这些存储库呈指数级增长，有效地为手头的任务选择一个好的模型变得至关重要。我们通过熟悉的遗憾概念对这个问题进行了形式化，并介绍了主要策略，即与任务无关（例如选择得分最高的 ImageNet 模型）和任务感知搜索策略（例如线性或 kNN 评估）。我们进行了一项大规模的实证研究，并表明任务不可知和任务感知方法都会产生很高的遗憾。然后，我们提出了一种简单且计算效率高的混合搜索策略，该策略优于现有方法。我们强调了所提出的解决方案在一组 19 种不同的视觉任务上的实际好处。

● 论文链接：https://arxiv.org/abs/2010.06402

● 作者单位：苏黎世联邦理工学院、Google Research

【基于归一化的动态无监督域适应】The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization

● 论文摘要：域适应对于使学习模型适应新场景（例如域转移或不断变化的数据分布）至关重要。当前的方法通常需要来自移位域的大量标记或未标记数据。这在需要持续动态适应或遭受数据稀缺的领域中可能是一个障碍，例如。在具有挑战性的天气条件下自动驾驶。为了解决持续适应分布变化的问题，我们提出了动态无监督适应（DUA）。我们通过不断调整批量归一化层的统计数据来修改模型的特征表示。我们表明，通过仅访问来自移位域的一小部分未标记数据并按顺序进行调整，可以获得强大的性能提升。由于来自目标域的未标记数据甚至不到 1%，DUA 已经在强大的基线上取得了具有竞争力的结果。此外，与以前的方法相比，计算开销最小。我们的方法简单但有效，可以应用于任何使用批量标准化作为其组件之一的架构。我们通过在各种领域适应数据集和任务（包括对象识别、数字识别和对象检测）上评估 DUA 来展示 DUA 的实用性。

● 论文链接：https://arxiv.org/abs/2112.00463

● 作者单位：格拉茨工业大学等

【GPU的快速离散优化】FastDOG: Fast Discrete Optimization on GPU

● 论文摘要：我们提出了一种大规模并行拉格朗日分解方法，用于求解结构化预测中出现的 0-1 整数线性程序。我们提出了一种新的迭代更新方案来解决拉格朗日对偶和用于解码原始解决方案的扰动技术。为了表示子问题，我们遵循 Lange 等人。（2021）并使用二元决策图（BDD）。我们的原始算法和对偶算法几乎不需要子问题之间的同步，并且对 BDD 的优化只需要基本操作而无需复杂的控制流。这使我们能够利用 GPU 为我们方法的所有组件提供的并行性。我们展示了来自马尔可夫随机场的 MAP 推理、发育生物学的二次分配和细胞跟踪的组合问题的实验结果。我们的高度并行 GPU 实现改进了 Lange 等人的算法的运行时间。（2021）高达一个数量级。特别是，我们接近或优于一些最先进的专业启发式算法，同时与问题无关。

● 论文链接：https://arxiv.org/abs/2111.10270

● 作者单位：马克斯·普朗克信息学研究所

【一种GPU快速多切算法】RAMA: A Rapid Multicut Algorithm on GPU

● 论文摘要：我们为多割（又名相关聚类）问题提出了一种高度并行的原始对偶算法，这是一种广泛用于机器学习和计算机视觉的经典图聚类问题。我们的算法包括三个递归执行的步骤：（1）找到与底层多割松弛的违反不等式相对应的冲突循环，（2）在边缘和循环之间执行消息传递以优化来自发现的违反循环的拉格朗日松弛，从而产生减少成本和（3）通过矩阵-矩阵乘法以降低成本的方式收缩边缘。我们的算法产生原始解决方案和估计最佳距离的双重下界。我们在 GPU 上实现了我们的算法，与在 CPU 上运行的传统串行算法相比，在不牺牲解决方案质量的情况下，执行速度提高了一到两个数量级。我们可以在几秒钟内以小的原始对偶间隙解决具有多达 O(10^8) 个变量的非常大规模的基准测试问题。 ● 论文链接：https://arxiv.org/abs/2109.01838

● 论文代码：https://github.com/pawelswoboda/rama

● 作者单位：马克斯·普朗克信息学研究所

【没有注释的情况下分割对象学习】FreeSOLO: Learning to Segment Objects without Annotations

● 论文摘要：实例分割是一项基本的视觉任务，旨在识别和分割图像中的每个对象。但是，它需要昂贵的注释，例如边界框和分割掩码来进行学习。在这项工作中，我们提出了一种完全无监督的学习方法，可以在没有任何注释的情况下学习与类无关的实例分割。我们提出了 FreeSOLO，这是一个建立在简单实例分割方法 SOLO 之上的自我监督实例分割框架。我们的方法还提出了一种新颖的定位感知预训练框架，其中可以以无监督的方式从复杂场景中发现对象。FreeSOLO 在具有挑战性的 COCO 数据集上实现了 9.8% 的 AP_{50}，甚至优于几种使用手动注释的分割提议方法。我们第一次成功地展示了无监督的与类无关的实例分割。FreeSOLO 的框定位显着优于最先进的无监督对象检测/发现方法，COCO AP 的相对改进约为 100%。FreeSOLO 进一步证明了作为一种强大的预训练方法的优越性，在仅使用 5% 的 COCO 掩码对实例分割进行微调时，其性能优于最先进的自监督预训练方法 + 9.8% AP。

● 论文链接：https://arxiv.org/abs/2202.12181

● 作者单位：阿德莱德大学、NVIDIA、加州理工学院、浙江大学

【通过插值对齐的特征来改进表示】AlignMixup: Improving representations by interpolating aligned features

● 论文摘要：Mixup 是一种强大的数据增强方法，它在输入或特征空间中的两个或多个示例之间以及相应的目标标签之间进行插值。许多最近的混合方法侧重于将两个或多个对象剪切和粘贴到一个图像中，这更多是关于有效处理而不是插值。然而，如何最好地插入图像并没有很好的定义。从这个意义上说，mixup 已与自动编码器相关联，因为自动编码器通常会“很好地进行插值”，例如生成一张不断变形为另一张的图像。在这项工作中，我们从插值的角度重新审视 mixup 并引入 AlignMix，我们在几何上对齐特征空间中的两个图像。对应关系允许我们在两组特征之间进行插值，同时保持一组特征的位置。有趣的是，这会导致 mixup 主要保留一张图像的几何形状或姿势以及另一张图像的纹理，将其与风格转移联系起来。不仅如此，我们还展示了自动编码器仍然可以改进混合下的表示学习，而分类器永远不会看到解码的图像。AlignMix 在五个不同的基准测试中优于最先进的混合方法。

● 论文链接：https://arxiv.org/abs/2103.15375

● 作者单位：Inria, Univ Rennes, CNRS, IRISA

【跨模态检索的协同双流视觉-语言前训练模型】COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval ● 论文摘要：大规模的单塔预训练模型，在跨模态检索中取得惊人的检索效果。遗憾的是，由于它们大多采用耗时的实参跨模态交互方式，检索效率非常低。最近，像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果，然而，它们只考虑了模态之间的实例级对齐（因此仍有改进的余地）。为了克服这些限制，我们提出了一个新颖的协同式双塔视觉语言预训练模型，简称为COTS。总的来说，我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外，我们还提出了两种额外的跨模态交互。(1)Token级的交互—在不使用实参交互模型的情况下，我们设计了一个遮蔽视觉语言建模（MVLM）的学习目标，其中变分自编码器用于视觉编码，可为每个图像生成视觉token级别的标记。(2)任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标，其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下，我们提出的COTS在所有双塔方法中取得了最好的结果，与最新的单塔方法相比，COTS表现出相当的能力（但推理速度快10,800倍）。同时，我们提出的COTS也适用于从文本到视频的检索，在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

● 作者：卢浩宇，费楠益，霍宇琦，高一钊，卢志武，文继荣

● 作者单位：中国人民大学高瓴人工智能学院

【跨模态检索的协同双流视觉-语言前训练模型】Balanced Audio-visual Learning via On-the-fly Gradient Modulation

● 论文摘要：视听学习通过整合不同的感官，有助于全面了解世界。因此，多输入模态有望提高模型性能，但我们实际上发现即使多模态模型优于其单模态模型，它们也没有得到充分利用。具体来说，在本文中，我们指出现有的视听判别模型（其中为所有模态设计了统一的目标）可能仍然存在欠优化的单模态表示，这是由某些场景中的另一种主导模态引起的。为了缓解这种优化不平衡，我们提出了动态梯度调制，通过监控它们对学习目标的贡献的差异来自适应地控制每种模态的优化。此外，引入了动态变化的额外高斯噪声，以避免梯度调制引起的泛化下降。因此，我们在不同的视听任务上实现了对普通融合方法的相当大的改进，这种简单的策略也可以提升现有的多模态方法，这说明了它的有效性和多功能性。 ● 作者：彭小康*，卫雅珂*，邓安东，王栋，胡迪

● 作者单位：中国人民大学高瓴人工智能学院

【学习在动态视听情境中回答问题】Learning to Answer Questions in Dynamic Audio-Visual Scenarios

● 论文摘要：我们在本文中聚焦于视听问答(AVQA)任务，该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究，我们创建了一个大规模的AVQA数据集，其中包含超过45K个问答对，并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务，我们提出了一些基线方法，并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务，并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台，用于评估和促进视听场景理解和时空推理的研究。此外，引入了动态变化的额外高斯噪声，以避免梯度调制引起的泛化下降。因此，我们在不同的视听任务上实现了对普通融合方法的相当大的改进，这种简单的策略也可以提升现有的多模态方法，这说明了它的有效性和多功能性。

● 作者：李光耀*，卫雅珂*，田亚鹏，胡迪，徐成良，文继荣

● 作者单位：中国人民大学高瓴人工智能学院

【深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险】Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

● 论文摘要：多视图聚类通过挖掘多个视图的互补信息来提高聚类性能。然而，我们观察到视图数量的增加并不总能确保提高模型的聚类效果。为此，我们提出了一个基于深度学习的通用框架以降低视图增加带来的聚类性能下降的风险。具体地，该模型需要通过自动选择来自不同视图的特征来同时挖掘互补信息和去除无意义的噪声。这两个学习过程通过提出的双层优化目标被集成到统一的框架。在理论上，该框架的经验聚类风险不高于在视图增加前的数据和新增加的单视图数据上的经验聚类风险。同时，在基于散度的聚类损失下，该框架的期望聚类风险以高概率不高于在视图增加前的数据和新增加的单视图数据上的期望聚类风险。在基准多视图数据集上的综合实验证明了该框架在实现安全多视图聚类上的有效性和优越性。

● 作者：唐华镱，刘勇

● 作者单位：中国人民大学高瓴人工智能学院

63.【利用大规模视频转录推进高分辨率视频语言表示】Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions ● 论文摘要：我们研究了视频和语言（VL）的联合预训练，以实现跨模态学习并使大量的下游VL任务受益。现有的研究要么是提取低质量的视频特征，要么是学习有限的文本嵌入，而忽略了高分辨率的视频和多样化的语义可以显著增强跨模态学习。在本文中，我们提出了一个新颖的高分辨率和多样化的视频-文本预训练模型（HD-VILA），用于许多视觉任务。我们收集了一个具有两个特性的大型数据集：(1)高分辨率，包括371.5K小时的720p视频。(2)多样化，涵盖15个流行的YouTube类别。为了实现VL预训练，我们通过一个混合Transformer和一个多模态Transformer来共同优化HD-VILA模型，前者学习丰富的时空特征，后者进行视频特征与多样化文本的交互。我们的预训练模型在10个VL理解任务和2个文本到视觉的生成任务中取得了最先进的结果。例如，我们在zero-shot MSR-VTT文本到视频检索任务中超越了SOTA模型，相对增加了38.5％R@'1，在高分辨率数据集LSMDC中增加了53.6％。学习到的VL嵌入在文本到视觉编辑和超分辨率任务中也能有效地产生视觉效果好、语义上的相关结果。 ● 作者：薛宏伟*，杭天恺*，曾艳红*，孙宇冲*，刘蓓，杨欢，傅建龙，郭百宁 ● 作者单位：中国人民大学高瓴人工智能学院

64.【目标检测的定位蒸馏】Localization Distillation for Dense Object Detection Translation ● 论文摘要：知识蒸馏(Knowledge精馏，KD)在学习紧凑模型的目标检测中具有强大的能力。由于KD方法在提取定位信息方面效率较低，以往的目标检测方法主要是在模拟区域内模拟深度特征，而不是模拟分类logit。本文通过对定位知识精馏过程的重构，提出了一种新的定位精馏方法，该方法能有效地将定位知识从教师传递给学生。此外，我们还启发式地引入了有价值定位区域的概念，有助于有选择地提取特定区域的语义和定位知识。结合这两种新组件，我们首次证明logit模仿比特征模仿更有效，并且定位知识蒸馏比语义知识蒸馏更重要和有效。该蒸馏方案简单有效，可方便地应用于不同密度的物体探测器。实验表明，LD能够在不牺牲推理速度的情况下，将单尺度1×训练计划下的GFocal-ResNet-50在COCO基准上的AP得分从40.1提高到42.1。 ● 论文链接：https://arxiv.org/abs/2102.12252 ● 论文代码：https://github.com/HikariTJU/LD ● 作者单位：南开大学、天津大学、哈尔滨工业大学

【弱监督目标定位建模为领域适应】Weakly Supervised Object Localization as Domain Adaption ● 论文摘要：弱监督目标定位(WSOL)只关注在图像级分类掩码的监督下进行对象定位。以前的大多数WSOL方法都遵循分类激活映射(classification activation map, CAM)，它使用多实例学习(MIL)机制基于分类结构对目标进行本地化。然而，MIL机制使得CAM只能激活识别目标的部分而不能激活整个目标，削弱了其本地化目标的性能。**为了避免这一问题，本文提出了一种新的视角，将WSOL建模为域适应(DA)任务，即在源/图像域上训练的分数估计器在目标/像素域上进行测试以定位目标。**在此视角下，DA-WSOL流程设计可以更好地将DA方法引入到WSOL中，以提高本地化性能。利用所提出的目标采样策略来选择不同类型的目标样本。基于这些类型的目标样本，对域自适应定位(DAL)损耗进行了阐述。该方法通过DA对两个域之间的特征分布进行对齐，并通过Universum正则化使估计器感知目标域线索。实验表明，该方法在多基准测试上的性能优于SOTA方法。

● 论文链接：https://arxiv.org/pdf/2203.01714.pdf

● 论文代码：https://github.com/zh460045050/DA-WSOL_CVPR2022

● 作者单位：北京大学、字节跳动等

【适应全景语义分割的失真感知Transformers】Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation ● 论文摘要：全景图像具有360度的方向性，包含了周围空间的详尽信息，为场景理解提供了丰富的基础。为了以健壮的全景分割模型的形式展现这种潜力，大量昂贵的像素级注释是成功的关键。这样的注释是可用的，但主要用于窄角度、针孔相机的图像，这些图像是现成的，对训练全景模型来说不是最理想的资源。360度全景图像的扭曲和明显的图像特征分布阻碍了从具有丰富注释的针孔域的转移，因此对性能造成了很大的影响。为了克服这一领域的差异，并将针孔和360度环绕视觉的语义注释结合在一起，我们提出在可变形贴片嵌入(DPE)和可变形MLP (DMLP)组件中学习物体变形和全景图像变形，这些组件混合到我们的全景语义分割(Trans4PASS)模型Transformer中。最后，我们通过生成多尺度的原型特征，将共享语义结合在针孔和全景特征嵌入中，并将它们对齐到我们的相互原型适配(MPA)中进行无监督领域适配。在斯坦福2d3d室内数据集上，我们的Trans4PASS与MPA保持了与完全监督状态下的性能相当的性能，减少了1400多个标签全景图的需求。在DensePASS的户外数据集上，我们将最先进的技术提高了14.39% mIoU，并将新标准设置为56.38%。

● 论文链接：https://arxiv.org/abs/2203.01452

● 论文代码：https://github.com/jamycheung/trans4pass

● 作者单位：卡尔斯鲁厄理工学院、字节跳动、蔡司公司

最新更新的 CVPR 2022 论文66篇

录用论文（持续更新）

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

最新更新的 CVPR 2022 论文66篇

录用论文（持续更新）

热门文章

最新文章

相关课程

相关电子书