每日学术速递3.14

简介: Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.FlexiViT: One Model for All Patch Sizes(CVPR 2023)

5fa947b6acdfb87397b7827097cdee5b.png

标题:FlexiViT:适用于所有补丁大小的一种模型

作者:Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith,

文章链接:https://arxiv.org/abs/2212.08013

项目代码:https://github.com/google-research/big_vision

9657abe12eda9e1b6e34db0319756a67.png

95192136777f302069dd70f6ed3ff326.png

21a22a0bee6294fe4af9d6bb1e416be9.png

摘要:

       Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估生成的模型,我们称之为 FlexiViT,用于广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是它通常匹配,有时甚至优于标准ViT 模型在其他方面相同的设置中以单个补丁大小进行训练。因此,FlexiViT 训练是对 ViT 的一种简单的直接改进,可以轻松地将计算自适应功能添加到依赖 ViT 骨干架构的大多数模型中。

2.Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

00a32285ca0220054fc4c1e7568c2ceb.png

标题:Rodin:使用扩散雕刻 3D 数字化身的生成模型

作者:Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/jiaojiayuasd/dilateformer

e247dcd42ace3ee87bf8da416af4f5db.png

56a967a005211d6b12a30d0d64aedc31.png

e8abccd2a853f1d4e003bcb3d9f01542.png

摘要:

       本文介绍了一种 3D 生成模型,该模型使用扩散模型自动生成表示为神经辐射场的 3D 数字化身。生成此类化身的一个重大挑战是 3D 中的内存和处理成本过高,无法生成高质量化身所需的丰富细节。为了解决这个问题,我们提出了展开扩散网络 (Rodin),它将神经辐射场表示为多个 2D 特征图,并将这些图展开到单个 2D 特征平面中,我们在其中执行 3D 感知扩散。Rodin 模型带来了急需的计算效率,同时通过使用 3D 感知卷积来保持 3D 扩散的完整性,该卷积根据 3D 中的原始关系处理 2D 特征平面中的投影特征。我们还使用潜在条件来协调全局一致性的特征生成,从而产生高保真化身并启用基于文本提示的语义编辑。最后,我们使用分层综合来进一步增强细节。我们的模型生成的 3D 头像与现有生成技术生成的头像相比具有优势。我们可以生成具有逼真的发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成 3D 头像以及文本引导的可编辑性。

3.X-Avatar: Expressive Human Avatars(CVPR 2023)

1308566c105bc4ffe18754b27189d11e.png

标题:X-Avatar:富有表现力的人类化身

作者:Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://skype-line.github.io/projects/X-Avatar/

d658e5e7e840a31acb17d08013c2569b.png

4c00e0ebd6e9a625d92c3752cb7d2d4e.png

9c1b2e7ee2689e8b314b490261567bba.png

27cb13968ad6439d15f7c52e2815d5c3.png

摘要:

       我们展示了 X-Avatar,这是一种新颖的人身模型,它可以捕捉数字人类的全部表现力,从而在远程呈现、AR/VR 等领域带来栩栩如生的体验。我们的方法以整体方式对身体、手部、面部表情和外观进行建模,可以从全 3D 扫描或 RGB-D 数据中学习。为实现这一目标,我们提出了一个部分感知学习前向蒙皮模块,该模块可以由 SMPL-X 的参数空间驱动,允许 X-Avatars 的表现动画。为了有效地学习神经形状和变形场,我们提出了新颖的部分感知采样和初始化策略。这会导致更高的保真度结果,尤其是对于较小的身体部位,同时尽管关节骨骼数量增加,但仍能保持有效的训练。为了捕捉具有高频细节的化身外观,我们使用以姿势、面部表情、几何形状和变形表面的法线为条件的纹理网络扩展几何和变形场。我们通过实验表明,我们的方法在动画任务的数量和质量上都优于两个数据域中的强基线。为了促进未来对富有表现力的化身的研究,我们贡献了一个名为 X-Humans 的新数据集,其中包含来自 20 名参与者的 233 个高质量纹理扫描序列,总计 35,500 个数据帧。

目录
相关文章
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
155 0
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
117 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
135 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
103 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
98 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.11
最近关于从姿势图像进行 3D 重建的工作表明,使用深度神经网络直接推断场景级 3D 几何结构而无需迭代优化是可行的,显示出非凡的前景和高效率。
98 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
116 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
111 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
152 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.10
本文介绍了扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试,发现它始终优于现有的最先进的机器人学习方法,平均提高 46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。
124 0