每日学术速递3.14

简介: Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.FlexiViT: One Model for All Patch Sizes(CVPR 2023)

5fa947b6acdfb87397b7827097cdee5b.png

标题:FlexiViT:适用于所有补丁大小的一种模型

作者:Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith,

文章链接:https://arxiv.org/abs/2212.08013

项目代码:https://github.com/google-research/big_vision

9657abe12eda9e1b6e34db0319756a67.png

95192136777f302069dd70f6ed3ff326.png

21a22a0bee6294fe4af9d6bb1e416be9.png

摘要:

       Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估生成的模型,我们称之为 FlexiViT,用于广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是它通常匹配,有时甚至优于标准ViT 模型在其他方面相同的设置中以单个补丁大小进行训练。因此,FlexiViT 训练是对 ViT 的一种简单的直接改进,可以轻松地将计算自适应功能添加到依赖 ViT 骨干架构的大多数模型中。

2.Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

00a32285ca0220054fc4c1e7568c2ceb.png

标题:Rodin:使用扩散雕刻 3D 数字化身的生成模型

作者:Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/jiaojiayuasd/dilateformer

e247dcd42ace3ee87bf8da416af4f5db.png

56a967a005211d6b12a30d0d64aedc31.png

e8abccd2a853f1d4e003bcb3d9f01542.png

摘要:

       本文介绍了一种 3D 生成模型,该模型使用扩散模型自动生成表示为神经辐射场的 3D 数字化身。生成此类化身的一个重大挑战是 3D 中的内存和处理成本过高,无法生成高质量化身所需的丰富细节。为了解决这个问题,我们提出了展开扩散网络 (Rodin),它将神经辐射场表示为多个 2D 特征图,并将这些图展开到单个 2D 特征平面中,我们在其中执行 3D 感知扩散。Rodin 模型带来了急需的计算效率,同时通过使用 3D 感知卷积来保持 3D 扩散的完整性,该卷积根据 3D 中的原始关系处理 2D 特征平面中的投影特征。我们还使用潜在条件来协调全局一致性的特征生成,从而产生高保真化身并启用基于文本提示的语义编辑。最后,我们使用分层综合来进一步增强细节。我们的模型生成的 3D 头像与现有生成技术生成的头像相比具有优势。我们可以生成具有逼真的发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成 3D 头像以及文本引导的可编辑性。

3.X-Avatar: Expressive Human Avatars(CVPR 2023)

1308566c105bc4ffe18754b27189d11e.png

标题:X-Avatar:富有表现力的人类化身

作者:Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://skype-line.github.io/projects/X-Avatar/

d658e5e7e840a31acb17d08013c2569b.png

4c00e0ebd6e9a625d92c3752cb7d2d4e.png

9c1b2e7ee2689e8b314b490261567bba.png

27cb13968ad6439d15f7c52e2815d5c3.png

摘要:

       我们展示了 X-Avatar,这是一种新颖的人身模型,它可以捕捉数字人类的全部表现力,从而在远程呈现、AR/VR 等领域带来栩栩如生的体验。我们的方法以整体方式对身体、手部、面部表情和外观进行建模,可以从全 3D 扫描或 RGB-D 数据中学习。为实现这一目标,我们提出了一个部分感知学习前向蒙皮模块,该模块可以由 SMPL-X 的参数空间驱动,允许 X-Avatars 的表现动画。为了有效地学习神经形状和变形场,我们提出了新颖的部分感知采样和初始化策略。这会导致更高的保真度结果,尤其是对于较小的身体部位,同时尽管关节骨骼数量增加,但仍能保持有效的训练。为了捕捉具有高频细节的化身外观,我们使用以姿势、面部表情、几何形状和变形表面的法线为条件的纹理网络扩展几何和变形场。我们通过实验表明,我们的方法在动画任务的数量和质量上都优于两个数据域中的强基线。为了促进未来对富有表现力的化身的研究,我们贡献了一个名为 X-Humans 的新数据集,其中包含来自 20 名参与者的 233 个高质量纹理扫描序列,总计 35,500 个数据帧。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
124 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递2.16
半监督目标检测 (SSOD) 已成功提高 R-CNN 系列和无锚检测器的性能。然而,one-stage anchor-based detectors 缺乏生成高质量或灵活伪标签的结构,导致 SSOD 中存在严重的不一致问题,例如 YOLOv5。在本文中,我们提出了高效教师框架,用于可扩展且有效的基于锚点的单阶段 SSOD 训练,由密集检测器、伪标签分配器和时代适配器组成
154 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
119 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
116 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
115 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
134 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递3.23
我们介绍了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视点。为了在这种欠约束的环境中执行新的视图合成,我们利用了大规模扩散模型了解自然图像的几何先验。我们的条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。
97 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
112 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
173 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
124 0