ECCV 2024：探索离散Token视觉生成中的自适应推理策略-阿里云开发者社区

ECCV 2024：探索离散Token视觉生成中的自适应推理策略

2024-10-23 123

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【10月更文挑战第13天】《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》提出了一种可学习的自适应生成策略方法AdaNAT，通过强化学习自动为每个样本配置合适的生成策略，有效提高了图像生成的质量和多样性，减少了对专家知识的依赖。实验结果表明，AdaNAT在多个基准数据集上表现出色。

在计算机视觉领域，基于Token的视觉内容生成方法在近年来取得了显著的成果。其中，非自回归Transformer（NATs）作为代表性方法，能够在少量步骤内合成高质量的图像。然而，NATs方法通常需要配置一个复杂的生成策略，该策略由多个手动设计的调度规则组成。这些基于启发式的规则容易导致次优解，并且需要专家知识和大量的人力投入。此外，这些规则的“一刀切”性质无法灵活适应每个个体样本的不同特征。

为了解决这些问题，Zanlin Ni等人在他们的论文《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》中提出了一种名为AdaNAT的可学习方法。该方法旨在为每个待生成的样本自动配置一个合适的生成策略。

AdaNAT的核心思想是将生成策略的确定问题表述为一个马尔可夫决策过程（MDP）。在这个框架下，通过强化学习来学习一个轻量级的生成策略网络。具体来说，AdaNAT利用强化学习中的策略梯度方法来优化策略网络的参数，使其能够根据每个样本的特征生成相应的生成策略。

为了有效地指导策略网络的训练，AdaNAT提出了一种对抗性奖励设计。与简单的奖励设计（如FID或预训练的奖励模型）不同，对抗性奖励设计能够更可靠地保证生成样本的质量和多样性。

为了验证AdaNAT的有效性，作者在四个基准数据集上进行了广泛的实验，包括ImageNet-256和ImageNet-512、MS-COCO和CC3M。实验结果表明，AdaNAT能够生成高质量和多样化的图像，并且其生成策略能够根据样本的特征进行自适应调整。

在ImageNet-256和ImageNet-512数据集上，AdaNAT生成的图像在FID和Inception Score等指标上表现出了与SOTA方法相当的性能。在MS-COCO和CC3M数据集上，AdaNAT也能够生成高质量的图像，并且其生成策略的自适应性使得其在处理不同类别和场景的图像时具有更好的鲁棒性。

AdaNAT的主要贡献在于提出了一种可学习的自适应生成策略方法，能够根据每个样本的特征自动配置合适的生成策略。这种方法不仅能够提高生成图像的质量和多样性，还能够减少对专家知识和人力投入的依赖。

然而，AdaNAT也存在一些局限性。首先，将生成策略的确定问题表述为MDP并使用强化学习来解决可能需要大量的计算资源和时间。其次，对抗性奖励设计虽然能够提高生成样本的质量和多样性，但也可能增加训练的复杂性和难度。

论文地址：https://arxiv.org/abs/2409.00342

ECCV 2024：探索离散Token视觉生成中的自适应推理策略

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ECCV 2024：探索离散Token视觉生成中的自适应推理策略

热门文章

最新文章

相关电子书