每日学术速递2.22

简介: 时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.PriSTI: A Conditional Diffusion Framework for Spatiotemporal Imputation

dadc8e94e7340b7226097f4c44e14e79.png

标题:PriSTI:时空插补的条件扩散框架

作者:Mingzhe Liu, Han Huang, Hao Feng, Leilei Sun, Bowen Du, Yanjie Fu

文章链接:https://arxiv.org/abs/2302.09746v1

项目代码:https://github.com/lmzzml/pristi

0d7723a0d60edd1ed1ca9f6e94431f62.png

8089d31a2991249f512c7261c4871dd7.png

摘要:

       时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。以前的主导模型以自回归方式估算缺失值,并存在误差累积的问题。作为新兴的强大生成模型,扩散概率模型可用于插补以观察为条件的缺失值,避免从不准确的历史插补中推断出缺失值。然而,将扩散模型应用于时空插补时,条件信息的构建和利用是不可避免的挑战。为了解决上述问题,我们提出了一个用于时空插补的条件扩散框架,该框架具有增强的先验建模,名为 PriSTI。我们提出的框架首先提供了一个条件特征提取模块,用于从条件信息中提取粗略但有效的时空依赖性作为全局上下文先验。然后,噪声估计模块将随机噪声转换为实际值,并根据条件特征计算时空注意力权重,并考虑地理关系。PriSTI 在不同真实世界时空数据的各种缺失模式中优于现有插补方法,并有效处理高缺失率和传感器故障等场景。

2.Cross-domain Compositing with Pretrained Diffusion Models

c47957dee90e40898c5fbde6fe42a933.png

标题:使用预训练扩散模型进行跨域合成

作者:Roy Hachnochi, Mingrui Zhao, Nadav Orzech, Rinon Gal, Ali Mahdavi-Amiri, Daniel Cohen-Or, Amit Haim Bermano

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/cross-domain-compositing/cross-domain-compositing

987951cbde6c89fc3246d52365d769f4.png

46201ba407499a8dbd5d42dfce15cea8.png

摘要:

       扩散模型启用了高质量的条件图像编辑功能。我们建议扩展他们的武器库,并证明现成的扩散模型可用于广泛的跨域合成任务。其中包括图像混合、对象沉浸、纹理替换甚至 CG2Real 翻译或风格化。我们采用局部迭代细化方案,为注入的对象注入来自背景场景的上下文信息,并能够控制对象可能经历的变化程度和类型。我们对之前的工作进行了一系列定性和定量比较,并表明我们的方法无需任何注释或培训即可产生更高质量和逼真的结果。最后,我们演示了我们的方法如何用于下游任务的数据增强。

3.Composer: Creative and Controllable Image Synthesis with Composable Conditions

8f5c055b0e69d302aa379c5da6098d2b.png

标题:Composer:具有可组合条件的创造性和可控图像合成

作者:Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/modelscope/modelscope

2b9a2dc4d9852131af3de7fba78e917f.png

a4cdeaebbde3ec610267430c1a206ead.png

82a4d3496ec59336678c70692b7a0651.png

摘要:

       最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但可控性有限。这项工作提供了一种新一代范例,可以灵活控制输出图像,例如空间布局和调色板,同时保持合成质量和模型创造力。以组合性为核心思想,我们首先将图像分解为具有代表性的因素,然后以所有这些因素为条件训练扩散模型对输入进行重组。在推理阶段,丰富的中间表示作为可组合元素工作,为可定制的内容创建带来巨大的设计空间(即,与分解因子的数量成指数比例)。值得注意的是,我们称之为 Composer 的方法支持各种级别的条件,例如作为全局信息的文本描述、作为局部指导的深度图和草图、用于低级细节的颜色直方图等。除了提高可控性外,我们确认 Composer 是一个通用框架,无需重新训练即可促进各种经典生成任务。代码和模型将可用。

目录
相关文章
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
123 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
112 0
|
机器学习/深度学习 自然语言处理 大数据
每日学术速递3.7
由 Hinton 等人介绍。2012 年,dropout 作为防止神经网络过度拟合的正则化项经受住了时间的考验。在这项研究中,我们证明了在训练开始时使用 dropout 也可以减轻欠拟合。在早期阶段,我们发现 dropout 减少了小批量梯度的方向方差,并有助于将小批量梯度与整个数据集的梯度对齐。这有助于抵消 SGD 的随机性并限制个别批次对模型训练的影响。
107 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.2
现有的深度视频模型受限于特定任务、固定的输入输出空间和较差的泛化能力,难以在真实场景中部署。在本文中,我们提出了我们对多模态和多功能视频理解的愿景,并提出了一个原型系统 \system
140 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
89 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
128 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
129 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
194 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
179 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
111 0