每日学术速递2.20

简介: 将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models


33265aff83b388b2be0c81032b787825.png


标题:用于扩散模型语义控制的边界引导混合轨迹

作者:Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

文章链接:https://arxiv.org/abs/2302.08357v1

项目代码:https://github.com/l-yezhu/cdcd

4be2c5a6b541fcb622bc1f816e90a608.png

0c3a913d67c73c5aafb85cfa15eb2712.png


摘要:

       将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。作为第一个基于优化的扩散编辑工作,我们首先通过理论和实证分析马尔可夫链中的概率和几何行为来寻求对中间高维潜在空间的更全面的理解。然后,我们建议进一步探索表征预训练 DDM 收敛的去噪轨迹中的关键步骤。最后但同样重要的是,我们进一步提出了我们的方法,通过在关键收敛步骤将去噪轨迹引导到目标边界来搜索可控操作的语义子空间边界。我们对具有不同分辨率 (64、256) 的各种 DPM 架构(DDPM、iDDPM)和数据集(CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog)进行了广泛的实验,作为经验演示。

2.Retrieval-augmented Image Captioning


d1f4c26bad3f6c7a59612a6e816aca9d.png


标题:检索增强图像说明

作者:Rita Ramos, Desmond Elliott, Bruno Martins

文章链接:https://arxiv.org/abs/2302.08268v1

项目代码:https://github.com/ritaramo/extra

6a62b31cbeee7017b2217874a9e3711f.png

8a8f1e39aa0a445d257b8ee6abc103f6.png


摘要:

       受检索增强语言生成和预训练视觉和语言 (V&L) 编码器的启发,我们提出了一种新的图像字幕方法,它根据输入图像和从数据存储中检索到的一组字幕生成句子,而不是单独使用图像。我们模型中的编码器使用预训练的 V&L BERT 联合处理图像和检索到的说明,而解码器则处理多模式编码器表示,从检索到的说明中获取额外的文本证据。COCO 数据集上的实验结果表明,可以从这个新角度有效地制定图像字幕。我们的模型名为 EXTRA,受益于使用从训练数据集中检索到的字幕,它还可以受益于使用外部数据集而无需重新训练。消融研究表明,检索足够数量的字幕(例如,k=5)可以提高字幕质量。我们的工作有助于将预训练的 V&L 编码器用于生成任务,而不是标准分类任务。

3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space

8063aab0c1c6a2dc8c8b13cafd1ac036.png

标题:隐函数空间中基于上下文交互的连续遥感影像超分辨率

作者:Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, XiaoLong Jiang, Zhengxia Zou, Zhenwei Shi

文章链接:https://arxiv.org/abs/2302.08046v1

项目代码:https://github.com/KyanChen/FunSR

c3bfffeb96039314719840968a2d422d.png

aafd2392dee4fa3b7c76d079d2692cf0.png

摘要:

       尽管图像超分辨率在遥感方面取得了丰硕的应用,但由于它使用不同的模型处理不同的分辨率放大倍数,因此训练和部署起来很麻烦。因此,我们提出了一个高度适用的超分辨率框架,称为 FunSR,它通过利用隐函数空间内的上下文交互,用统一的模型解决不同的放大倍数。FunSR 由功能表示器、功能交互器和功能解析器组成。具体来说,表示器将低分辨率图像从欧几里得空间转换为多尺度像素级函数图;交互器启用具有全局依赖性的像素级函数表达式;由交互器输出参数化的解析器将具有附加属性的离散坐标转换为 RGB 值。广泛的实验结果表明,FunSR 在固定放大和连续放大设置上报告了最先进的性能,同时,由于其统一的性质,它提供了许多友好的应用程序。

目录
相关文章
|
Python
新手向 Python:VsCode环境下Manim配置
该文介绍了如何准备和配置开发环境以使用Manim,主要包括两个步骤:一是准备工作,需要下载并安装VsCode和Anaconda,其中Anaconda需添加到系统PATH环境变量,并通过清华镜像源配置;二是配置环境,VsCode中安装中文插件和Python扩展,激活并配置虚拟环境。最后,安装ffmpeg和manim,通过VsCode运行测试代码验证配置成功。
1836 1
|
SQL 关系型数据库 MySQL
简简单单 My SQL 学习笔记(2)——分组和简单数据的查询
简简单单 My SQL 学习笔记(2)——分组和简单数据的查询
|
安全 Java Shell
一篇文章讲明白LinuxShell远程执行命令(命令行与脚本方式)
一篇文章讲明白LinuxShell远程执行命令(命令行与脚本方式)
1492 0
|
编解码 网络协议
一个RtspServer的设计与实现和RTSP2.0简介
一个RtspServer的设计与实现和RTSP2.0简介
792 0
|
Java 程序员 调度
多线程(初阶)——多线程基础
多线程(初阶)——多线程基础
234 0
|
人工智能 开发者
左右侧检验与双侧检验 | 学习笔记
快速学习左右侧检验与双侧检验
左右侧检验与双侧检验 | 学习笔记
|
数据采集 安全 测试技术
如何http代理(proxy)配置到指纹浏览器使用?
今天我将和大家分享如何将HTTP代理(或称为代理服务器)配置到指纹浏览器中使用。在网络上进行浏览和访问时,我们经常需要保护隐私和实现身份匿名化。
|
SQL 关系型数据库 MySQL
Mysql——事务详解(Transaction)
Mysql——事务详解(Transaction)
Mysql——事务详解(Transaction)

热门文章

最新文章