每日学术速递4.18

简介: 我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.Inpaint Anything: Segment Anything Meets Image Inpainting


012752809ce3e98976b332513934fee7.png


标题:Inpaint Anything:分割任何东西满足图像修复

作者:Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun Zeng, Zhibo Chen

文章链接:https://arxiv.org/abs/2304.06790

项目代码:https://github.com/geekyutao/Inpaint-Anything

39d212763b4b212b1557e992061f68e6.png

摘要:

       现代图像修复系统尽管取得了重大进展,但常常在掩码选择和孔洞填充方面遇到困难。基于Segment-Anything Model (SAM),我们对无掩码图像修复进行了首次尝试,并提出了一种新的“点击和填充”范式,命名为Inpaint Anything (IA)。IA 背后的核心思想是结合不同模型的优势,以构建一个非常强大且用户友好的管道来解决与修复相关的问题。IA 支持三个主要功能:(i) Remove Anything:用户可以单击一个对象,IA 将删除它并用上下文平滑“孔”;(ii) Fill Anything:在移除某些对象后,用户可以向 IA 提供基于文本的提示,然后它会通过驱动 Stable Diffusion 等 AIGC 模型用相应的生成内容填充空洞;(iii) Replace Anything:使用 IA,用户可以选择保留单击选择的对象并将剩余的背景替换为新生成的场景。我们也非常愿意帮助大家分享和推广基于我们 Inpaint Anything (IA) 的新项目。我们的代码可在此 https URL 上获得。

2.Soundini: Sound-Guided Diffusion for Natural Video Editing

f794d74c1e5f5e72bf04de0de096c648.png

标题:Soundini:用于自然视频编辑的声音引导扩散

作者:Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho, Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim

文章链接:https://arxiv.org/abs/2304.06818

项目代码:https://kuai-lab.github.io/soundini-gallery/

2d46984fe02a35023594e4a6ca47a360.png

899127fb2376a86e803e6084db4259e8.png

d343a7f02ea826849072ba093144d6da.png

9ebe8fb004e5aae51a02869873b9ad81.png

摘要:

       我们提出了一种方法,可以将声音引导的视觉效果添加到具有零镜头设置的视频的特定区域。动画化视觉效果的外观具有挑战性,因为编辑视频的每一帧都应具有视觉变化,同时保持时间一致性。此外,现有的视频编辑解决方案侧重于跨帧的时间一致性,而忽略了随时间变化的视觉风格变化,例如雷雨、波浪、火焰噼啪声。为了克服这个限制,我们将时间声音特征用于动态风格。具体来说,我们在视听潜在空间中使用音频潜在表示来指导去噪扩散概率模型。据我们所知,我们的工作是第一个从具有声音专业属性(例如强度、音色和音量)的各种声源探索声音引导的自然视频编辑。此外,我们设计了基于光流的引导来生成时间一致的视频帧,捕获相邻帧之间的像素关系。实验结果表明,我们的方法优于现有的视频编辑技术,产生更逼真的视觉效果,反映声音的特性。请访问我们的页面:这个 https URL 。

3.Delta Denoising Score

4ac01bcfd1e35aa2bf6254965659694f.png


标题:Delta 降噪得分

作者:Amir Hertz, Kfir Aberman, Daniel Cohen-Or

文章链接:https://arxiv.org/abs/2304.07090

项目代码:https://delta-denoising-score.github.io/

f7489ec02bec0909cc474c6af1dd1a31.png

8b33f6021e92bc7eb499dbf64bf6df61.png

6ed12de1d9781ad6afa1ea2e5412fe7b.png

38bd246880a4e5cce60dfbb8b00cb064.png

f83fd7e653d78cf4fa80b8649337c482.png


摘要:

       我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。为了解决这个问题,DDS 使用与输入图像匹配的提示来识别和删除不需要的 SDS 错误方向。我们的关键前提是,在对匹配的提示和图像对进行计算时,SDS 应该为零,这意味着如果分数不为零,则其梯度可以归因于 SDS 的错误成分。我们的分析证明了 DDS 在基于文本的图像到图像翻译方面的能力。我们进一步表明,DDS 可用于训练有效的零镜头图像翻译模型。实验结果表明,DDS 在稳定性和质量方面优于现有方法,突出了其在基于文本的图像编辑中实际应用的潜力。

目录
相关文章
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
166 0
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
127 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
76 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
122 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
126 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
189 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
178 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
150 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.17
怪异、不寻常和离奇的图像激起观察者的好奇心,因为它们挑战常识。例如,在 2022 年世界杯期间发布的一张图片描绘了著名足球明星莱昂内尔·梅西和克里斯蒂亚诺·罗纳尔多下棋,这调皮地违反了我们对他们的比赛应该在足球场上进行的预期。人类可以轻松识别和解读这些非常规图像,但 AI 模型也能做到吗?我们介绍了 WHOOPS!,这是一个新的视觉常识数据集和基准。
138 0

热门文章

最新文章