ECCV 2024:探索离散Token视觉生成中的自适应推理策略

简介: 【10月更文挑战第13天】《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》提出了一种可学习的自适应生成策略方法AdaNAT,通过强化学习自动为每个样本配置合适的生成策略,有效提高了图像生成的质量和多样性,减少了对专家知识的依赖。实验结果表明,AdaNAT在多个基准数据集上表现出色。

在计算机视觉领域,基于Token的视觉内容生成方法在近年来取得了显著的成果。其中,非自回归Transformer(NATs)作为代表性方法,能够在少量步骤内合成高质量的图像。然而,NATs方法通常需要配置一个复杂的生成策略,该策略由多个手动设计的调度规则组成。这些基于启发式的规则容易导致次优解,并且需要专家知识和大量的人力投入。此外,这些规则的“一刀切”性质无法灵活适应每个个体样本的不同特征。

为了解决这些问题,Zanlin Ni等人在他们的论文《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》中提出了一种名为AdaNAT的可学习方法。该方法旨在为每个待生成的样本自动配置一个合适的生成策略。

AdaNAT的核心思想是将生成策略的确定问题表述为一个马尔可夫决策过程(MDP)。在这个框架下,通过强化学习来学习一个轻量级的生成策略网络。具体来说,AdaNAT利用强化学习中的策略梯度方法来优化策略网络的参数,使其能够根据每个样本的特征生成相应的生成策略。

为了有效地指导策略网络的训练,AdaNAT提出了一种对抗性奖励设计。与简单的奖励设计(如FID或预训练的奖励模型)不同,对抗性奖励设计能够更可靠地保证生成样本的质量和多样性。

为了验证AdaNAT的有效性,作者在四个基准数据集上进行了广泛的实验,包括ImageNet-256和ImageNet-512、MS-COCO和CC3M。实验结果表明,AdaNAT能够生成高质量和多样化的图像,并且其生成策略能够根据样本的特征进行自适应调整。

在ImageNet-256和ImageNet-512数据集上,AdaNAT生成的图像在FID和Inception Score等指标上表现出了与SOTA方法相当的性能。在MS-COCO和CC3M数据集上,AdaNAT也能够生成高质量的图像,并且其生成策略的自适应性使得其在处理不同类别和场景的图像时具有更好的鲁棒性。

AdaNAT的主要贡献在于提出了一种可学习的自适应生成策略方法,能够根据每个样本的特征自动配置合适的生成策略。这种方法不仅能够提高生成图像的质量和多样性,还能够减少对专家知识和人力投入的依赖。

然而,AdaNAT也存在一些局限性。首先,将生成策略的确定问题表述为MDP并使用强化学习来解决可能需要大量的计算资源和时间。其次,对抗性奖励设计虽然能够提高生成样本的质量和多样性,但也可能增加训练的复杂性和难度。

论文地址:https://arxiv.org/abs/2409.00342

目录
相关文章
|
6月前
|
机器学习/深度学习 编解码
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
307 0
|
6月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
|
6月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
830 0
|
5月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
63 6
|
6月前
|
机器学习/深度学习 算法 大数据
[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer
阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。
|
6月前
|
人工智能 机器人 测试技术
论文介绍:零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
【5月更文挑战第4天】SAM-6D框架是零样本6D物体姿态估计的突破,能检测并准确估计新物体姿态,推动具身智能发展。该框架结合实例分割和姿态估计模型,实现RGB-D图像中的物体分割与姿态估计。在BOP基准测试中,SAM-6D超越现有方法,展示出色泛化能力,但还需应对光照变化、遮挡等问题,以提升现实环境中的性能。[论文链接](https://arxiv.org/pdf/2311.15707.pdf)
141 13
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
6月前
|
机器学习/深度学习
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
【2月更文挑战第17天】ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
1152 1
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
|
6月前
|
编解码 算法 知识图谱
ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分
ICCV 2023 | DAT:利用双重聚合的Transformer进行图像超分
147 0