在计算机视觉领域,基于Token的视觉内容生成方法在近年来取得了显著的成果。其中,非自回归Transformer(NATs)作为代表性方法,能够在少量步骤内合成高质量的图像。然而,NATs方法通常需要配置一个复杂的生成策略,该策略由多个手动设计的调度规则组成。这些基于启发式的规则容易导致次优解,并且需要专家知识和大量的人力投入。此外,这些规则的“一刀切”性质无法灵活适应每个个体样本的不同特征。
为了解决这些问题,Zanlin Ni等人在他们的论文《AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation》中提出了一种名为AdaNAT的可学习方法。该方法旨在为每个待生成的样本自动配置一个合适的生成策略。
AdaNAT的核心思想是将生成策略的确定问题表述为一个马尔可夫决策过程(MDP)。在这个框架下,通过强化学习来学习一个轻量级的生成策略网络。具体来说,AdaNAT利用强化学习中的策略梯度方法来优化策略网络的参数,使其能够根据每个样本的特征生成相应的生成策略。
为了有效地指导策略网络的训练,AdaNAT提出了一种对抗性奖励设计。与简单的奖励设计(如FID或预训练的奖励模型)不同,对抗性奖励设计能够更可靠地保证生成样本的质量和多样性。
为了验证AdaNAT的有效性,作者在四个基准数据集上进行了广泛的实验,包括ImageNet-256和ImageNet-512、MS-COCO和CC3M。实验结果表明,AdaNAT能够生成高质量和多样化的图像,并且其生成策略能够根据样本的特征进行自适应调整。
在ImageNet-256和ImageNet-512数据集上,AdaNAT生成的图像在FID和Inception Score等指标上表现出了与SOTA方法相当的性能。在MS-COCO和CC3M数据集上,AdaNAT也能够生成高质量的图像,并且其生成策略的自适应性使得其在处理不同类别和场景的图像时具有更好的鲁棒性。
AdaNAT的主要贡献在于提出了一种可学习的自适应生成策略方法,能够根据每个样本的特征自动配置合适的生成策略。这种方法不仅能够提高生成图像的质量和多样性,还能够减少对专家知识和人力投入的依赖。
然而,AdaNAT也存在一些局限性。首先,将生成策略的确定问题表述为MDP并使用强化学习来解决可能需要大量的计算资源和时间。其次,对抗性奖励设计虽然能够提高生成样本的质量和多样性,但也可能增加训练的复杂性和难度。