每日学术速递2.22

简介: 时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.PriSTI: A Conditional Diffusion Framework for Spatiotemporal Imputation

dadc8e94e7340b7226097f4c44e14e79.png

标题:PriSTI:时空插补的条件扩散框架

作者:Mingzhe Liu, Han Huang, Hao Feng, Leilei Sun, Bowen Du, Yanjie Fu

文章链接:https://arxiv.org/abs/2302.09746v1

项目代码:https://github.com/lmzzml/pristi

0d7723a0d60edd1ed1ca9f6e94431f62.png

8089d31a2991249f512c7261c4871dd7.png

摘要:

       时空数据挖掘在空气质量监测、人群流动建模和气候预测中发挥着重要作用。然而,由于传感器故障或传输丢失,现实场景中最初收集的时空数据通常是不完整的。时空插补旨在根据观测值及其潜在的时空依赖性来填充缺失值。以前的主导模型以自回归方式估算缺失值,并存在误差累积的问题。作为新兴的强大生成模型,扩散概率模型可用于插补以观察为条件的缺失值,避免从不准确的历史插补中推断出缺失值。然而,将扩散模型应用于时空插补时,条件信息的构建和利用是不可避免的挑战。为了解决上述问题,我们提出了一个用于时空插补的条件扩散框架,该框架具有增强的先验建模,名为 PriSTI。我们提出的框架首先提供了一个条件特征提取模块,用于从条件信息中提取粗略但有效的时空依赖性作为全局上下文先验。然后,噪声估计模块将随机噪声转换为实际值,并根据条件特征计算时空注意力权重,并考虑地理关系。PriSTI 在不同真实世界时空数据的各种缺失模式中优于现有插补方法,并有效处理高缺失率和传感器故障等场景。

2.Cross-domain Compositing with Pretrained Diffusion Models

c47957dee90e40898c5fbde6fe42a933.png

标题:使用预训练扩散模型进行跨域合成

作者:Roy Hachnochi, Mingrui Zhao, Nadav Orzech, Rinon Gal, Ali Mahdavi-Amiri, Daniel Cohen-Or, Amit Haim Bermano

文章链接:https://arxiv.org/abs/2302.01791v1

项目代码:https://github.com/cross-domain-compositing/cross-domain-compositing

987951cbde6c89fc3246d52365d769f4.png

46201ba407499a8dbd5d42dfce15cea8.png

摘要:

       扩散模型启用了高质量的条件图像编辑功能。我们建议扩展他们的武器库,并证明现成的扩散模型可用于广泛的跨域合成任务。其中包括图像混合、对象沉浸、纹理替换甚至 CG2Real 翻译或风格化。我们采用局部迭代细化方案,为注入的对象注入来自背景场景的上下文信息,并能够控制对象可能经历的变化程度和类型。我们对之前的工作进行了一系列定性和定量比较,并表明我们的方法无需任何注释或培训即可产生更高质量和逼真的结果。最后,我们演示了我们的方法如何用于下游任务的数据增强。

3.Composer: Creative and Controllable Image Synthesis with Composable Conditions

8f5c055b0e69d302aa379c5da6098d2b.png

标题:Composer:具有可组合条件的创造性和可控图像合成

作者:Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou

文章链接:https://arxiv.org/abs/2302.01660v2

项目代码:https://github.com/modelscope/modelscope

2b9a2dc4d9852131af3de7fba78e917f.png

a4cdeaebbde3ec610267430c1a206ead.png

82a4d3496ec59336678c70692b7a0651.png

摘要:

       最近在大数据上学习的大规模生成模型能够合成令人难以置信的图像,但可控性有限。这项工作提供了一种新一代范例,可以灵活控制输出图像,例如空间布局和调色板,同时保持合成质量和模型创造力。以组合性为核心思想,我们首先将图像分解为具有代表性的因素,然后以所有这些因素为条件训练扩散模型对输入进行重组。在推理阶段,丰富的中间表示作为可组合元素工作,为可定制的内容创建带来巨大的设计空间(即,与分解因子的数量成指数比例)。值得注意的是,我们称之为 Composer 的方法支持各种级别的条件,例如作为全局信息的文本描述、作为局部指导的深度图和草图、用于低级细节的颜色直方图等。除了提高可控性外,我们确认 Composer 是一个通用框架,无需重新训练即可促进各种经典生成任务。代码和模型将可用。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
135 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
151 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
125 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
81 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
90 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
119 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
202 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
146 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
111 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
121 0