每日学术速递3.14

简介: Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.FlexiViT: One Model for All Patch Sizes(CVPR 2023)

5fa947b6acdfb87397b7827097cdee5b.png

标题:FlexiViT:适用于所有补丁大小的一种模型

作者:Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith,

文章链接:https://arxiv.org/abs/2212.08013

项目代码:https://github.com/google-research/big_vision

9657abe12eda9e1b6e34db0319756a67.png

95192136777f302069dd70f6ed3ff326.png

21a22a0bee6294fe4af9d6bb1e416be9.png

摘要:

       Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。我们广泛评估生成的模型,我们称之为 FlexiViT,用于广泛的任务,包括分类、图像文本检索、开放世界检测、全景分割和语义分割,得出的结论是它通常匹配,有时甚至优于标准ViT 模型在其他方面相同的设置中以单个补丁大小进行训练。因此,FlexiViT 训练是对 ViT 的一种简单的直接改进,可以轻松地将计算自适应功能添加到依赖 ViT 骨干架构的大多数模型中。

2.Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

00a32285ca0220054fc4c1e7568c2ceb.png

标题:Rodin:使用扩散雕刻 3D 数字化身的生成模型

作者:Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/jiaojiayuasd/dilateformer

e247dcd42ace3ee87bf8da416af4f5db.png

56a967a005211d6b12a30d0d64aedc31.png

e8abccd2a853f1d4e003bcb3d9f01542.png

摘要:

       本文介绍了一种 3D 生成模型,该模型使用扩散模型自动生成表示为神经辐射场的 3D 数字化身。生成此类化身的一个重大挑战是 3D 中的内存和处理成本过高,无法生成高质量化身所需的丰富细节。为了解决这个问题,我们提出了展开扩散网络 (Rodin),它将神经辐射场表示为多个 2D 特征图,并将这些图展开到单个 2D 特征平面中,我们在其中执行 3D 感知扩散。Rodin 模型带来了急需的计算效率,同时通过使用 3D 感知卷积来保持 3D 扩散的完整性,该卷积根据 3D 中的原始关系处理 2D 特征平面中的投影特征。我们还使用潜在条件来协调全局一致性的特征生成,从而产生高保真化身并启用基于文本提示的语义编辑。最后,我们使用分层综合来进一步增强细节。我们的模型生成的 3D 头像与现有生成技术生成的头像相比具有优势。我们可以生成具有逼真的发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成 3D 头像以及文本引导的可编辑性。

3.X-Avatar: Expressive Human Avatars(CVPR 2023)

1308566c105bc4ffe18754b27189d11e.png

标题:X-Avatar:富有表现力的人类化身

作者:Kaiyue Shen, Chen Guo, Manuel Kaufmann, Juan Jose Zarate, Julien Valentin, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://skype-line.github.io/projects/X-Avatar/

d658e5e7e840a31acb17d08013c2569b.png

4c00e0ebd6e9a625d92c3752cb7d2d4e.png

9c1b2e7ee2689e8b314b490261567bba.png

27cb13968ad6439d15f7c52e2815d5c3.png

摘要:

       我们展示了 X-Avatar,这是一种新颖的人身模型,它可以捕捉数字人类的全部表现力,从而在远程呈现、AR/VR 等领域带来栩栩如生的体验。我们的方法以整体方式对身体、手部、面部表情和外观进行建模,可以从全 3D 扫描或 RGB-D 数据中学习。为实现这一目标,我们提出了一个部分感知学习前向蒙皮模块,该模块可以由 SMPL-X 的参数空间驱动,允许 X-Avatars 的表现动画。为了有效地学习神经形状和变形场,我们提出了新颖的部分感知采样和初始化策略。这会导致更高的保真度结果,尤其是对于较小的身体部位,同时尽管关节骨骼数量增加,但仍能保持有效的训练。为了捕捉具有高频细节的化身外观,我们使用以姿势、面部表情、几何形状和变形表面的法线为条件的纹理网络扩展几何和变形场。我们通过实验表明,我们的方法在动画任务的数量和质量上都优于两个数据域中的强基线。为了促进未来对富有表现力的化身的研究,我们贡献了一个名为 X-Humans 的新数据集,其中包含来自 20 名参与者的 233 个高质量纹理扫描序列,总计 35,500 个数据帧。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
108 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
149 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
传感器 机器学习/深度学习 自然语言处理
每日学术速递2.22
时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。
112 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递4.6
大型语言模型 (LLM)(如 GPT-3 和 ChatGPT)的成功导致开发了许多具有成本效益且易于访问的替代方案,这些替代方案是通过使用特定于任务的数据(例如,ChatDoctor)微调开放访问 LLM 创建的) 或指令数据(例如,Alpaca)。在各种微调方法中,基于适配器的参数高效微调(PEFT)无疑是最吸引人的话题之一
135 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
109 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
159 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
125 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
144 0