每日学术速递2.21

简介: 大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

74caae57713e551818886c1fc5d24949.png

标题:T2I-Adapter:学习Adapter,为Text-to-Image扩散模型挖掘更多可控能力

作者:Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, XiaoHu Qie

文章链接:https://arxiv.org/abs/2302.08453v1

项目代码:hhttps://github.com/tencentarc/t2i-adapter

b3095d9280ea609ad296097b68b8a494.png

8b40c2573c0f7a84dfe5feee40ad44e5.png

165db17041d60e5169c9225d152fb8dd.png


摘要:

       大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。具体来说,我们建议学习简单和小型的 T2I-Adapters 以对齐内部知识具有外部控制信号的T2I模型,同时冻结原有的大型T2I模型。这样,我们可以根据不同的条件训练各种适配器,实现丰富的控制和编辑效果。此外,所提出的T2I-Adapters具有实用价值的吸引人的特性,例如可组合性和泛化能力。大量实验表明,我们的 T2I-Adapter 具有良好的生成质量和广泛的应用范围。

2.3D Human Pose Lifting with Grid Convolution

7f34d35be86f932bb888641d5ea60ace.png

标题:网格卷积的 3D 人体姿态提升

作者:Yangyuxuan Kang, Yuyang Liu, Anbang Yao, Shandong Wang, Enhua Wu

文章链接:https://arxiv.org/abs/2302.08760v1

项目代码:https://github.com/osvai/gridconv

f05ed6bfc0e66ba3f7d3ce646e95df7c.png

c764d1d78c736e80224382073eb7bb42.png

31ea470eb559b92639943432de8e0f0f.png

摘要:

       现有的用于从 2D 单视图姿势回归 3D 人体姿势的提升网络通常是用基于图结构表示学习的线性层构建的。与它们形成鲜明对比的是,本文提出了网格卷积 (GridConv),它模仿了图像空间中常规卷积运算的智慧。GridConv 基于一种新颖的语义网格变换 (SGT),它利用二进制分配矩阵将不规则图形结构的人体姿势逐个关节映射到规则的编织状网格姿势表示,从而通过 GridConv 操作实现逐层特征学习。我们提供两种实现 SGT 的方法,包括手工设计和可学习设计。令人惊讶的是,这两种设计都取得了有希望的结果,而且可学习的设计更好,证明了这种新的提升表示学习公式的巨大潜力。为了提高 GridConv 编码上下文线索的能力,我们在卷积核上引入了一个注意力模块,使网格卷积操作依赖于输入、空间感知和网格特定。我们表明,我们的全卷积网格提升网络优于最先进的方法,在 (1) Human3.6M 的常规评估和 (2) MPI-INF-3DHP 的交叉评估下具有明显的利润率。

Subjects: cs.LG


3.MiDi: Mixed Graph and 3D Denoising Diffusion for Molecule Generation

d017aa224fda88fa946f51d9d492a2e4.png


标题:MiDi:用于分子生成的混合图和 3D 去噪扩散

作者:Clement Vignac, Nagham Osman, Laura Toni, Pascal Frossard

文章链接:https://arxiv.org/abs/2302.09048v1

项目代码:https://github.com/cvignac/midi

31c45cc13e68996c0f100b65f4a1e9c9.png

摘要:

       这项工作介绍了 MiDi,这是一种用于联合生成分子图和相应的 3D 构象异构体的扩散模型。与使用预定义规则从构象中导出分子键的现有模型相比,MiDi 使用端到端可微分模型简化了分子生成过程。实验结果证明了这种方法的好处:在复杂的 GEOM-DRUGS 数据集上,我们的模型生成的分子图明显优于基于 3D 的模型,甚至超过了直接优化键顺序有效性的专门算法。我们的代码可在 github.com/cvignac/MiDi 获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
101 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
193 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
137 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
109 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
122 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
144 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
112 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
110 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
105 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
182 0