每日学术速递4.17

简介: 扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion


a62cef655400feea70996c9cfc6e0848.png

标题:DreamPose:通过稳定扩散实现时尚图像到视频合成

作者:Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman

文章链接:https://arxiv.org/abs/2304.06025

项目代码:https://grail.cs.washington.edu/projects/dreampose/

86b68b1b814c93c0f7c5b0d4f38fcc07.png

f2a0f7084ee218b2885a211155eab4eb.png

1bcc4d5a8e4bcd2c1be7eba0e3700544.png

bd77cb6ddffc3cfc782500d3985b434a.png

摘要:

       我们介绍了 DreamPose,这是一种基于扩散的方法,用于从静止图像生成动画时尚视频。给定一张图像和一系列人体姿势,我们的方法合成了一个包含人体和织物运动的视频。为实现这一目标,我们将预训练的文本到图像模型(稳定扩散)转换为姿势和图像引导的视频合成模型,使用新颖的微调策略、一组架构更改以支持添加的调节信号和技术鼓励时间一致性。我们对来自 UBC 时尚数据集的时尚视频集进行了微调。我们在各种服装风格和姿势上评估了我们的方法,并证明我们的方法在时尚视频动画上产生了最先进的结果。我们的项目页面上提供了视频结果。

2.Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

18529b5ab9978f2d6b9e34c35cb7e314.png


标题:用于布局引导图像生成的诊断基准和迭代修复

作者:Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal

文章链接:https://arxiv.org/abs/2304.06671

项目代码:https://layoutbench.github.io/

1c5612c71e9e06fd9f1a980db980de06.png

b6120abcf6af88ef6e915f63a02b422d.png

cf36aff9fe24144ec59adecf2f86ebc5.png

950ac8c54e813cbf6b3662ea65ea4a6d.png


摘要:

       空间控制是可控图像生成的核心能力。布局引导图像生成方面的进步已在具有相似空间配置的分布内 (ID) 数据集上显示出可喜的结果。然而,目前尚不清楚这些模型在面对具有任意、看不见的布局的分布外 (OOD) 样本时的表现。在本文中,我们提出了 LayoutBench,这是一种用于布局引导图像生成的诊断基准,它检查四类空间控制技能:数量、位置、大小和形状。我们对最近两种具有代表性的布局引导图像生成方法进行了基准测试,并观察到良好的 ID 布局控制可能无法很好地泛化到野外的任意布局(例如,边界处的对象)。接下来,我们提出了 IterInpaint,这是一种新的基线,它通过修复以逐步的方式生成前景和背景区域,在 LayoutBench 的 OOD 布局上展示了比现有模型更强的通用性。我们对 LayoutBench 的四种技能进行定量和定性评估以及细粒度分析,以找出现有模型的弱点。最后,我们展示了对 IterInpaint 的综合消融研究,包括训练任务比率、裁剪和粘贴与重绘以及生成顺序。项目网站:这个https URL

3.DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

003aeb1ec4f9c6f7194fdc532d0eadd7.png

标题:DiffFit:通过简单的参数高效微调解锁大型扩散模型的可转移性

作者:Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li

文章链接:https://arxiv.org/abs/2304.06648

项目代码:https://github.com/mkshing/DiffFit-pytorch

69c9b04f2ce36ac0236f8191d1227c3d.png

f36416ef06ad79253efe76f84e5cc73f.png

c1c373b1f4b38dc531501a761fa4877c.png

84b4401ee3ee7589ff25aba203bb20f8.png

摘要:

      扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子,但会显着提高训练速度并降低模型存储成本。与完全微调相比,DiffFit 实现了 2 × 的训练速度提升,并且只需要存储大约 0.12\% 的模型总参数。已经提供了直观的理论分析来证明缩放因子对快速适应的有效性。在 8 个下游数据集上,与完全微调相比,DiffFit 取得了优越或有竞争力的性能,同时效率更高。值得注意的是,我们表明 DiffFit 可以通过增加最小成本将预训练的低分辨率生成模型调整为高分辨率生成模型。在基于扩散的方法中,DiffFit 在 ImageNet 512 × 512 基准上设置了一个新的最先进的 FID 3.02,方法是从公共预训练的 ImageNet 256 @ 中仅微调 25 个时期。5# 256 checkpoint while being 30 × 训练效率比最接近的竞争对手高。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
148 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.10
雨雪天气去除是天气退化图像恢复中的一项专门任务,旨在消除共存的雨条纹和雪颗粒。在本文中,我们提出了 RSFormer,这是一种高效且有效的 Transformer,可以应对这一挑战。最初,我们探索了层次结构中卷积网络 (ConvNets) 和视觉变换器 (ViTs) 的接近程度,并通过实验发现它们在阶段内特征学习中的表现大致相同。
113 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
181 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.13
现有的视频系统识别方法(估计物体的物理参数)假设已知物体的几何形状。这排除了它们在对象几何形状复杂或未知的绝大多数场景中的适用性。在这项工作中,我们的目标是从一组多视图视频中识别表征物理系统的参数,而无需对对象几何或拓扑进行任何假设。为此,我们提出了“物理增强连续体神经辐射场”(PAC-NeRF)
162 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
138 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
138 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
165 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
159 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
91 0
下一篇
无影云桌面