每日学术速递4.17

简介: 扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion


a62cef655400feea70996c9cfc6e0848.png

标题:DreamPose:通过稳定扩散实现时尚图像到视频合成

作者:Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman

文章链接:https://arxiv.org/abs/2304.06025

项目代码:https://grail.cs.washington.edu/projects/dreampose/

86b68b1b814c93c0f7c5b0d4f38fcc07.png

f2a0f7084ee218b2885a211155eab4eb.png

1bcc4d5a8e4bcd2c1be7eba0e3700544.png

bd77cb6ddffc3cfc782500d3985b434a.png

摘要:

       我们介绍了 DreamPose,这是一种基于扩散的方法,用于从静止图像生成动画时尚视频。给定一张图像和一系列人体姿势,我们的方法合成了一个包含人体和织物运动的视频。为实现这一目标,我们将预训练的文本到图像模型(稳定扩散)转换为姿势和图像引导的视频合成模型,使用新颖的微调策略、一组架构更改以支持添加的调节信号和技术鼓励时间一致性。我们对来自 UBC 时尚数据集的时尚视频集进行了微调。我们在各种服装风格和姿势上评估了我们的方法,并证明我们的方法在时尚视频动画上产生了最先进的结果。我们的项目页面上提供了视频结果。

2.Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

18529b5ab9978f2d6b9e34c35cb7e314.png


标题:用于布局引导图像生成的诊断基准和迭代修复

作者:Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal

文章链接:https://arxiv.org/abs/2304.06671

项目代码:https://layoutbench.github.io/

1c5612c71e9e06fd9f1a980db980de06.png

b6120abcf6af88ef6e915f63a02b422d.png

cf36aff9fe24144ec59adecf2f86ebc5.png

950ac8c54e813cbf6b3662ea65ea4a6d.png


摘要:

       空间控制是可控图像生成的核心能力。布局引导图像生成方面的进步已在具有相似空间配置的分布内 (ID) 数据集上显示出可喜的结果。然而,目前尚不清楚这些模型在面对具有任意、看不见的布局的分布外 (OOD) 样本时的表现。在本文中,我们提出了 LayoutBench,这是一种用于布局引导图像生成的诊断基准,它检查四类空间控制技能:数量、位置、大小和形状。我们对最近两种具有代表性的布局引导图像生成方法进行了基准测试,并观察到良好的 ID 布局控制可能无法很好地泛化到野外的任意布局(例如,边界处的对象)。接下来,我们提出了 IterInpaint,这是一种新的基线,它通过修复以逐步的方式生成前景和背景区域,在 LayoutBench 的 OOD 布局上展示了比现有模型更强的通用性。我们对 LayoutBench 的四种技能进行定量和定性评估以及细粒度分析,以找出现有模型的弱点。最后,我们展示了对 IterInpaint 的综合消融研究,包括训练任务比率、裁剪和粘贴与重绘以及生成顺序。项目网站:这个https URL

3.DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

003aeb1ec4f9c6f7194fdc532d0eadd7.png

标题:DiffFit:通过简单的参数高效微调解锁大型扩散模型的可转移性

作者:Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li

文章链接:https://arxiv.org/abs/2304.06648

项目代码:https://github.com/mkshing/DiffFit-pytorch

69c9b04f2ce36ac0236f8191d1227c3d.png

f36416ef06ad79253efe76f84e5cc73f.png

c1c373b1f4b38dc531501a761fa4877c.png

84b4401ee3ee7589ff25aba203bb20f8.png

摘要:

      扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子,但会显着提高训练速度并降低模型存储成本。与完全微调相比,DiffFit 实现了 2 × 的训练速度提升,并且只需要存储大约 0.12\% 的模型总参数。已经提供了直观的理论分析来证明缩放因子对快速适应的有效性。在 8 个下游数据集上,与完全微调相比,DiffFit 取得了优越或有竞争力的性能,同时效率更高。值得注意的是,我们表明 DiffFit 可以通过增加最小成本将预训练的低分辨率生成模型调整为高分辨率生成模型。在基于扩散的方法中,DiffFit 在 ImageNet 512 × 512 基准上设置了一个新的最先进的 FID 3.02,方法是从公共预训练的 ImageNet 256 @ 中仅微调 25 个时期。5# 256 checkpoint while being 30 × 训练效率比最接近的竞争对手高。

目录
相关文章
给 element-plus 增加一个防抖的功能(二)
element-plus 功能非常强大,但是好像只有 el-autocomplete 提供了一个防抖功能,其他表单子控件并没有提供防抖功能,而 el-autocomplete 的防抖和我想要的效果又不太一样,所以只好写个函数实现我想要的防抖效果。
|
缓存 NoSQL Java
分布式锁有哪些应用场景和实现?
电商网站都会遇到秒杀、特价之类的活动,大促活动有一个共同特点就是访问量激增,在高并发下会出现成千上万人抢购一个商品的场景。虽然在系统设计时会通过限流、异步、排队等方式优化,但整体的并发还是平时的数倍以上,参加活动的商品一般都是限量库存,如何防止库存超卖,避免并发问题呢?分布式锁就是一个解决方案。
828 0
|
安全 网络安全 数据库
“小红书基于零信任的数据安全落地实践”演讲实录
11月,为期两天的FCIS 2023网络安全创新大会(以下简称:“FCIS 2023大会”)在上海张江科学会堂圆满落幕。来自全球的数十位网络安全人物、企业安全负责人、技术大拿、研究学者等发表主题演讲,累计线下参会观众突破6000人次。 在主论坛E-Tech企业安全实践分享中,亿格云行业标杆客户「小红书安全技术负责人、首席数据官」周达发表了“基于零信任的数据安全建设实践”的主题演讲。分别从办公场景下的数据安全挑战、小红书全链路零信任体系和安全思考与展望三方面详细阐述。
|
监控 安全 测试技术
如何确保API对接过程中的数据安全?
确保API对接过程中的数据安全至关重要。最佳实践包括:使用HTTPS协议、强化身份验证和授权、数据加密、输入验证、访问控制、限流限速、日志记录和监控、安全测试、数据脱敏、错误处理、API网关、Web应用程序防火墙(WAF)、审计和合规性。这些措施能有效提升API的安全性,保护数据免受恶意攻击和泄露风险。
确保你已经安装了`dronekit`库。如果没有,你可以使用pip来安装:
确保你已经安装了`dronekit`库。如果没有,你可以使用pip来安装:
|
存储 Prometheus 监控
Prometheus 的报警机制:Alertmanager 的配置与使用
【8月更文第29天】Prometheus 是一个非常强大的监控系统,它不仅能够收集和存储时间序列数据,还能通过 Alertmanager 提供灵活的报警机制。Alertmanager 负责接收 Prometheus 发送的警报,并根据配置的规则执行相应的通知动作。本文将详细介绍如何配置 Alertmanager 以及如何使用它来实现基于 Prometheus 指标的报警通知。
4116 1
|
数据采集 存储 监控
离散型工厂生产制造MES管理系统解决方案
MES 是车间中用以管理和优化从订单下达到产品完工的整个生产过程的硬件和软件的集合,它控制和利用准确的制造信息,对车间生产活动中的实时事件做出快速响应,同时向企业决策支持过程提供相关生产活动的重要信息。
584 0
|
存储 Prometheus 监控
《Prometheus 监控实践:从零到英雄》
《Prometheus 监控实践:从零到英雄》
469 0
|
缓存 Java 网络安全
Nacos报错问题之获取配置文件的时候报错如何解决
Nacos是一个开源的、易于部署的动态服务发现、配置管理和服务管理平台,旨在帮助微服务架构下的应用进行快速配置更新和服务治理;在实际运用中,用户可能会遇到各种报错,本合集将常见的Nacos报错问题进行归纳和解答,以便使用者能够快速定位和解决这些问题。
2212 1