CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Inpaint Anything: Segment Anything Meets Image Inpainting
标题:Inpaint Anything:分割任何东西满足图像修复
作者:Tao Yu, Runseng Feng, Ruoyu Feng, Jinming Liu, Xin Jin, Wenjun Zeng, Zhibo Chen
文章链接:https://arxiv.org/abs/2304.06790
项目代码:https://github.com/geekyutao/Inpaint-Anything
摘要:
现代图像修复系统尽管取得了重大进展,但常常在掩码选择和孔洞填充方面遇到困难。基于Segment-Anything Model (SAM),我们对无掩码图像修复进行了首次尝试,并提出了一种新的“点击和填充”范式,命名为Inpaint Anything (IA)。IA 背后的核心思想是结合不同模型的优势,以构建一个非常强大且用户友好的管道来解决与修复相关的问题。IA 支持三个主要功能:(i) Remove Anything:用户可以单击一个对象,IA 将删除它并用上下文平滑“孔”;(ii) Fill Anything:在移除某些对象后,用户可以向 IA 提供基于文本的提示,然后它会通过驱动 Stable Diffusion 等 AIGC 模型用相应的生成内容填充空洞;(iii) Replace Anything:使用 IA,用户可以选择保留单击选择的对象并将剩余的背景替换为新生成的场景。我们也非常愿意帮助大家分享和推广基于我们 Inpaint Anything (IA) 的新项目。我们的代码可在此 https URL 上获得。
2.Soundini: Sound-Guided Diffusion for Natural Video Editing
标题:Soundini:用于自然视频编辑的声音引导扩散
作者:Seung Hyun Lee, Sieun Kim, Innfarn Yoo, Feng Yang, Donghyeon Cho, Youngseo Kim, Huiwen Chang, Jinkyu Kim, Sangpil Kim
文章链接:https://arxiv.org/abs/2304.06818
项目代码:https://kuai-lab.github.io/soundini-gallery/
摘要:
我们提出了一种方法,可以将声音引导的视觉效果添加到具有零镜头设置的视频的特定区域。动画化视觉效果的外观具有挑战性,因为编辑视频的每一帧都应具有视觉变化,同时保持时间一致性。此外,现有的视频编辑解决方案侧重于跨帧的时间一致性,而忽略了随时间变化的视觉风格变化,例如雷雨、波浪、火焰噼啪声。为了克服这个限制,我们将时间声音特征用于动态风格。具体来说,我们在视听潜在空间中使用音频潜在表示来指导去噪扩散概率模型。据我们所知,我们的工作是第一个从具有声音专业属性(例如强度、音色和音量)的各种声源探索声音引导的自然视频编辑。此外,我们设计了基于光流的引导来生成时间一致的视频帧,捕获相邻帧之间的像素关系。实验结果表明,我们的方法优于现有的视频编辑技术,产生更逼真的视觉效果,反映声音的特性。请访问我们的页面:这个 https URL 。
3.Delta Denoising Score
标题:Delta 降噪得分
作者:Amir Hertz, Kfir Aberman, Daniel Cohen-Or
文章链接:https://arxiv.org/abs/2304.07090
项目代码:https://delta-denoising-score.github.io/
摘要:
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。为了解决这个问题,DDS 使用与输入图像匹配的提示来识别和删除不需要的 SDS 错误方向。我们的关键前提是,在对匹配的提示和图像对进行计算时,SDS 应该为零,这意味着如果分数不为零,则其梯度可以归因于 SDS 的错误成分。我们的分析证明了 DDS 在基于文本的图像到图像翻译方面的能力。我们进一步表明,DDS 可用于训练有效的零镜头图像翻译模型。实验结果表明,DDS 在稳定性和质量方面优于现有方法,突出了其在基于文本的图像编辑中实际应用的潜力。