每日学术速递2.20

简介: 将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models


33265aff83b388b2be0c81032b787825.png


标题:用于扩散模型语义控制的边界引导混合轨迹

作者:Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

文章链接:https://arxiv.org/abs/2302.08357v1

项目代码:https://github.com/l-yezhu/cdcd

4be2c5a6b541fcb622bc1f816e90a608.png

0c3a913d67c73c5aafb85cfa15eb2712.png


摘要:

       将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。作为第一个基于优化的扩散编辑工作,我们首先通过理论和实证分析马尔可夫链中的概率和几何行为来寻求对中间高维潜在空间的更全面的理解。然后,我们建议进一步探索表征预训练 DDM 收敛的去噪轨迹中的关键步骤。最后但同样重要的是,我们进一步提出了我们的方法,通过在关键收敛步骤将去噪轨迹引导到目标边界来搜索可控操作的语义子空间边界。我们对具有不同分辨率 (64、256) 的各种 DPM 架构(DDPM、iDDPM)和数据集(CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog)进行了广泛的实验,作为经验演示。

2.Retrieval-augmented Image Captioning


d1f4c26bad3f6c7a59612a6e816aca9d.png


标题:检索增强图像说明

作者:Rita Ramos, Desmond Elliott, Bruno Martins

文章链接:https://arxiv.org/abs/2302.08268v1

项目代码:https://github.com/ritaramo/extra

6a62b31cbeee7017b2217874a9e3711f.png

8a8f1e39aa0a445d257b8ee6abc103f6.png


摘要:

       受检索增强语言生成和预训练视觉和语言 (V&L) 编码器的启发,我们提出了一种新的图像字幕方法,它根据输入图像和从数据存储中检索到的一组字幕生成句子,而不是单独使用图像。我们模型中的编码器使用预训练的 V&L BERT 联合处理图像和检索到的说明,而解码器则处理多模式编码器表示,从检索到的说明中获取额外的文本证据。COCO 数据集上的实验结果表明,可以从这个新角度有效地制定图像字幕。我们的模型名为 EXTRA,受益于使用从训练数据集中检索到的字幕,它还可以受益于使用外部数据集而无需重新训练。消融研究表明,检索足够数量的字幕(例如,k=5)可以提高字幕质量。我们的工作有助于将预训练的 V&L 编码器用于生成任务,而不是标准分类任务。

3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space

8063aab0c1c6a2dc8c8b13cafd1ac036.png

标题:隐函数空间中基于上下文交互的连续遥感影像超分辨率

作者:Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, XiaoLong Jiang, Zhengxia Zou, Zhenwei Shi

文章链接:https://arxiv.org/abs/2302.08046v1

项目代码:https://github.com/KyanChen/FunSR

c3bfffeb96039314719840968a2d422d.png

aafd2392dee4fa3b7c76d079d2692cf0.png

摘要:

       尽管图像超分辨率在遥感方面取得了丰硕的应用,但由于它使用不同的模型处理不同的分辨率放大倍数,因此训练和部署起来很麻烦。因此,我们提出了一个高度适用的超分辨率框架,称为 FunSR,它通过利用隐函数空间内的上下文交互,用统一的模型解决不同的放大倍数。FunSR 由功能表示器、功能交互器和功能解析器组成。具体来说,表示器将低分辨率图像从欧几里得空间转换为多尺度像素级函数图;交互器启用具有全局依赖性的像素级函数表达式;由交互器输出参数化的解析器将具有附加属性的离散坐标转换为 RGB 值。广泛的实验结果表明,FunSR 在固定放大和连续放大设置上报告了最先进的性能,同时,由于其统一的性质,它提供了许多友好的应用程序。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
144 0
每日学术速递4.3
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
75 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.17
扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子
128 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递4.28
神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用
179 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.15
数据驱动是深度学习算法最具标志性的特性之一。ImageNet 的诞生推动了计算机视觉“从大规模数据中学习”的显着趋势。在 ImageNet 上进行预训练以获得丰富的通用表征已被证明有利于各种 2D 视觉任务,并成为 2D 视觉的标准。
148 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
85 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
187 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
104 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
171 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递2.28
最近在机器人视觉表示学习方面的工作证明了从人类执行日常任务的大型视频数据集中学习的可行性。利用掩码自动编码和对比学习等方法,这些表示表现出向视觉运动控制的策略学习的强烈迁移。但是,机器人学习包含一系列无法控制的问题,包括掌握能力预测、语言条件模仿学习和人机协作的意图评分等。
80 0