每日学术速递2.20

简介: 将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models


33265aff83b388b2be0c81032b787825.png


标题:用于扩散模型语义控制的边界引导混合轨迹

作者:Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan

文章链接:https://arxiv.org/abs/2302.08357v1

项目代码:https://github.com/l-yezhu/cdcd

4be2c5a6b541fcb622bc1f816e90a608.png

0c3a913d67c73c5aafb85cfa15eb2712.png


摘要:

       将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。作为第一个基于优化的扩散编辑工作,我们首先通过理论和实证分析马尔可夫链中的概率和几何行为来寻求对中间高维潜在空间的更全面的理解。然后,我们建议进一步探索表征预训练 DDM 收敛的去噪轨迹中的关键步骤。最后但同样重要的是,我们进一步提出了我们的方法,通过在关键收敛步骤将去噪轨迹引导到目标边界来搜索可控操作的语义子空间边界。我们对具有不同分辨率 (64、256) 的各种 DPM 架构(DDPM、iDDPM)和数据集(CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog)进行了广泛的实验,作为经验演示。

2.Retrieval-augmented Image Captioning


d1f4c26bad3f6c7a59612a6e816aca9d.png


标题:检索增强图像说明

作者:Rita Ramos, Desmond Elliott, Bruno Martins

文章链接:https://arxiv.org/abs/2302.08268v1

项目代码:https://github.com/ritaramo/extra

6a62b31cbeee7017b2217874a9e3711f.png

8a8f1e39aa0a445d257b8ee6abc103f6.png


摘要:

       受检索增强语言生成和预训练视觉和语言 (V&L) 编码器的启发,我们提出了一种新的图像字幕方法,它根据输入图像和从数据存储中检索到的一组字幕生成句子,而不是单独使用图像。我们模型中的编码器使用预训练的 V&L BERT 联合处理图像和检索到的说明,而解码器则处理多模式编码器表示,从检索到的说明中获取额外的文本证据。COCO 数据集上的实验结果表明,可以从这个新角度有效地制定图像字幕。我们的模型名为 EXTRA,受益于使用从训练数据集中检索到的字幕,它还可以受益于使用外部数据集而无需重新训练。消融研究表明,检索足够数量的字幕(例如,k=5)可以提高字幕质量。我们的工作有助于将预训练的 V&L 编码器用于生成任务,而不是标准分类任务。

3.Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space

8063aab0c1c6a2dc8c8b13cafd1ac036.png

标题:隐函数空间中基于上下文交互的连续遥感影像超分辨率

作者:Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, XiaoLong Jiang, Zhengxia Zou, Zhenwei Shi

文章链接:https://arxiv.org/abs/2302.08046v1

项目代码:https://github.com/KyanChen/FunSR

c3bfffeb96039314719840968a2d422d.png

aafd2392dee4fa3b7c76d079d2692cf0.png

摘要:

       尽管图像超分辨率在遥感方面取得了丰硕的应用,但由于它使用不同的模型处理不同的分辨率放大倍数,因此训练和部署起来很麻烦。因此,我们提出了一个高度适用的超分辨率框架,称为 FunSR,它通过利用隐函数空间内的上下文交互,用统一的模型解决不同的放大倍数。FunSR 由功能表示器、功能交互器和功能解析器组成。具体来说,表示器将低分辨率图像从欧几里得空间转换为多尺度像素级函数图;交互器启用具有全局依赖性的像素级函数表达式;由交互器输出参数化的解析器将具有附加属性的离散坐标转换为 RGB 值。广泛的实验结果表明,FunSR 在固定放大和连续放大设置上报告了最先进的性能,同时,由于其统一的性质,它提供了许多友好的应用程序。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
175 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
182 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递3.1
文本引导的扩散模型,如 DALLE-2、IMAGEN 和 Stable Diffusion,只要给出描述所需图像内容的简短文本提示,就能够有效地生成无穷无尽的图像。在许多情况下,图像的质量也非常高。然而,这些模型通常难以组合包含多个关键对象的场景,例如具有指定位置关系的角色。
93 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
122 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.5
无论是通过从头到尾以固定分辨率处理视频,还是结合池化和缩小策略,现有的视频转换器都可以处理整个网络中的整个视频内容,而无需专门处理大部分冗余信息。在本文中,我们提出了一种 Supertoken Video Transformer (SVT),它结合了语义池模块 (SPM),根据视觉转换器的语义沿着视觉转换器的深度聚合潜在表示,从而减少视频输入中固有的冗余。
95 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
127 0
|
机器学习/深度学习 编解码 人工智能
每日学术速递5.5
我们介绍了多尺度多视图视觉变换器 (MMViT),它将多尺度特征图和多视图编码引入到变换器模型中。我们的模型对输入信号的不同视图进行编码,并构建多个通道分辨率特征阶段
166 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
155 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
169 0