ECCV 2024:探索离散Token视觉生成中的自适应推理策略

简介: 【10月更文挑战第13天】《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》提出了一种可学习的自适应生成策略方法AdaNAT,通过强化学习自动为每个样本配置合适的生成策略,有效提高了图像生成的质量和多样性,减少了对专家知识的依赖。实验结果表明,AdaNAT在多个基准数据集上表现出色。

在计算机视觉领域,基于Token的视觉内容生成方法在近年来取得了显著的成果。其中,非自回归Transformer(NATs)作为代表性方法,能够在少量步骤内合成高质量的图像。然而,NATs方法通常需要配置一个复杂的生成策略,该策略由多个手动设计的调度规则组成。这些基于启发式的规则容易导致次优解,并且需要专家知识和大量的人力投入。此外,这些规则的“一刀切”性质无法灵活适应每个个体样本的不同特征。

为了解决这些问题,Zanlin Ni等人在他们的论文《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》中提出了一种名为AdaNAT的可学习方法。该方法旨在为每个待生成的样本自动配置一个合适的生成策略。

AdaNAT的核心思想是将生成策略的确定问题表述为一个马尔可夫决策过程(MDP)。在这个框架下,通过强化学习来学习一个轻量级的生成策略网络。具体来说,AdaNAT利用强化学习中的策略梯度方法来优化策略网络的参数,使其能够根据每个样本的特征生成相应的生成策略。

为了有效地指导策略网络的训练,AdaNAT提出了一种对抗性奖励设计。与简单的奖励设计(如FID或预训练的奖励模型)不同,对抗性奖励设计能够更可靠地保证生成样本的质量和多样性。

为了验证AdaNAT的有效性,作者在四个基准数据集上进行了广泛的实验,包括ImageNet-256和ImageNet-512、MS-COCO和CC3M。实验结果表明,AdaNAT能够生成高质量和多样化的图像,并且其生成策略能够根据样本的特征进行自适应调整。

在ImageNet-256和ImageNet-512数据集上,AdaNAT生成的图像在FID和Inception Score等指标上表现出了与SOTA方法相当的性能。在MS-COCO和CC3M数据集上,AdaNAT也能够生成高质量的图像,并且其生成策略的自适应性使得其在处理不同类别和场景的图像时具有更好的鲁棒性。

AdaNAT的主要贡献在于提出了一种可学习的自适应生成策略方法,能够根据每个样本的特征自动配置合适的生成策略。这种方法不仅能够提高生成图像的质量和多样性,还能够减少对专家知识和人力投入的依赖。

然而,AdaNAT也存在一些局限性。首先,将生成策略的确定问题表述为MDP并使用强化学习来解决可能需要大量的计算资源和时间。其次,对抗性奖励设计虽然能够提高生成样本的质量和多样性,但也可能增加训练的复杂性和难度。

论文地址:https://arxiv.org/abs/2409.00342

目录
相关文章
|
7月前
|
自然语言处理 异构计算
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
176 3
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
|
7月前
|
机器学习/深度学习 编解码
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
331 0
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
179 10
|
4月前
|
算法
基于小波变换的图像自适应增强算法
基于小波变换的图像自适应增强算法
19 0
|
6月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
77 6
|
7月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
165 13
|
7月前
|
人工智能 计算机视觉
论文介绍:MDTv2——提升图像合成能力的掩码扩散变换器
【5月更文挑战第18天】MDTv2是掩码扩散变换器的升级版,旨在增强图像合成模型DPMs处理语义关系的能力。通过掩码操作和不对称扩散变换,MDTv2能学习图像的完整语义信息,提升学习效率和图像质量。MDTv2采用优化的网络结构和训练策略,如长快捷方式、密集输入和时间步适应损失权重,实现SOTA性能,FID分数达到1.58,训练速度比DiT快10倍。尽管计算成本高和泛化能力待验证,MDTv2为图像合成领域开辟了新方向。[链接: https://arxiv.org/abs/2303.14389]
198 1
|
7月前
|
机器学习/深度学习
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
【2月更文挑战第17天】ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
1219 1
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
ICCV 2023 | SwiftFormer:基于Transformer的实时移动视觉应用中的高效加性注意
ICCV 2023 | SwiftFormer:基于Transformer的实时移动视觉应用中的高效加性注意
113 2
|
7月前
|
机器学习/深度学习 数据可视化 网络协议
【论文精读】ECCV2020 - 带有圆平滑标签的定向目标检测
【论文精读】ECCV2020 - 带有圆平滑标签的定向目标检测

热门文章

最新文章