ECCV 2024:探索离散Token视觉生成中的自适应推理策略

简介: 【10月更文挑战第13天】《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》提出了一种可学习的自适应生成策略方法AdaNAT,通过强化学习自动为每个样本配置合适的生成策略,有效提高了图像生成的质量和多样性,减少了对专家知识的依赖。实验结果表明,AdaNAT在多个基准数据集上表现出色。

在计算机视觉领域,基于Token的视觉内容生成方法在近年来取得了显著的成果。其中,非自回归Transformer(NATs)作为代表性方法,能够在少量步骤内合成高质量的图像。然而,NATs方法通常需要配置一个复杂的生成策略,该策略由多个手动设计的调度规则组成。这些基于启发式的规则容易导致次优解,并且需要专家知识和大量的人力投入。此外,这些规则的“一刀切”性质无法灵活适应每个个体样本的不同特征。

为了解决这些问题,Zanlin Ni等人在他们的论文《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》中提出了一种名为AdaNAT的可学习方法。该方法旨在为每个待生成的样本自动配置一个合适的生成策略。

AdaNAT的核心思想是将生成策略的确定问题表述为一个马尔可夫决策过程(MDP)。在这个框架下,通过强化学习来学习一个轻量级的生成策略网络。具体来说,AdaNAT利用强化学习中的策略梯度方法来优化策略网络的参数,使其能够根据每个样本的特征生成相应的生成策略。

为了有效地指导策略网络的训练,AdaNAT提出了一种对抗性奖励设计。与简单的奖励设计(如FID或预训练的奖励模型)不同,对抗性奖励设计能够更可靠地保证生成样本的质量和多样性。

为了验证AdaNAT的有效性,作者在四个基准数据集上进行了广泛的实验,包括ImageNet-256和ImageNet-512、MS-COCO和CC3M。实验结果表明,AdaNAT能够生成高质量和多样化的图像,并且其生成策略能够根据样本的特征进行自适应调整。

在ImageNet-256和ImageNet-512数据集上,AdaNAT生成的图像在FID和Inception Score等指标上表现出了与SOTA方法相当的性能。在MS-COCO和CC3M数据集上,AdaNAT也能够生成高质量的图像,并且其生成策略的自适应性使得其在处理不同类别和场景的图像时具有更好的鲁棒性。

AdaNAT的主要贡献在于提出了一种可学习的自适应生成策略方法,能够根据每个样本的特征自动配置合适的生成策略。这种方法不仅能够提高生成图像的质量和多样性,还能够减少对专家知识和人力投入的依赖。

然而,AdaNAT也存在一些局限性。首先,将生成策略的确定问题表述为MDP并使用强化学习来解决可能需要大量的计算资源和时间。其次,对抗性奖励设计虽然能够提高生成样本的质量和多样性,但也可能增加训练的复杂性和难度。

论文地址:https://arxiv.org/abs/2409.00342

目录
相关文章
|
9月前
|
自然语言处理 异构计算
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
211 3
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
|
9月前
|
机器学习/深度学习 算法 内存技术
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
209 2
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
958 0
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
220 10
|
8月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
97 6
|
9月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
192 13
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:探索离散状态空间中的去噪扩散模型
【4月更文挑战第8天】新研究提出离散去噪扩散概率模型(D3PMs),扩展了在图像和音频生成上成功的DDPMs,专注于离散数据如文本和图像分割。D3PMs通过结构化的离散腐败过程改进生成质量,无需将数据转化为连续空间,允许嵌入领域知识。实验显示,D3PMs在字符级文本生成和CIFAR-10图像数据集上表现出色。尽管有局限性,如在某些任务上不及自回归模型,D3PMs的灵活性使其适用于多样化场景。
102 2
论文介绍:探索离散状态空间中的去噪扩散模型
|
机器学习/深度学习 存储 缓存
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
深度学习应用篇-计算机视觉-视频分类8:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制
|
计算机视觉
【图像去噪】基于混合自适应(EM 自适应)实现自适应图像去噪研究(Matlab代码实现)
【图像去噪】基于混合自适应(EM 自适应)实现自适应图像去噪研究(Matlab代码实现)
107 0
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022