在人工智能领域,生成模型的研究一直是一个热门话题。这类模型的目标是学习数据的分布,以便能够生成新的、与训练数据相似的样本。近年来,去噪扩散概率模型(DDPMs)在图像和音频生成方面取得了显著的成果。然而,大多数研究集中在连续状态空间的模型上,而对于离散数据,如文本和图像分割,相应的研究则相对较少。最近,一篇论文提出了一种新的离散去噪扩散概率模型(D3PMs),为这一领域带来了新的视角。
该论文首先介绍了生成建模的重要性,并回顾了包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归神经网络模型在内的多种生成方法。这些方法各有优势,但也存在样本质量、采样速度、对数似然和训练稳定性等方面的权衡。扩散模型作为一种新兴的生成模型,通过训练一个参数化的马尔可夫链来逆转一个预定义的正向过程,即一个逐渐将训练数据破坏成纯噪声的随机过程,从而生成新的样本。
D3PMs的创新之处在于,它不仅继承了DDPMs的优点,还通过引入结构化的离散腐败过程来改进和扩展离散扩散模型。这种方法不需要将离散数据放松或嵌入到连续空间,而是可以将结构或领域知识嵌入到正向过程中使用的转移矩阵中。论文通过实验表明,这种灵活性可以显著提高图像和文本领域的生成质量。
在文本生成方面,D3PMs在字符级文本生成上取得了强大的结果,并且在扩展到大型词汇表和长序列长度时仍然表现出色。在图像数据集CIFAR-10上,D3PMs的样本质量和对数似然与连续空间DDPM模型相当,甚至有所超越。
此外,论文还探讨了D3PMs与现有概率模型之间的联系,包括BERT和自回归模型。通过将D3PMs的转换矩阵设置为特定形式,可以模拟BERT的去噪目标,或者将D3PMs视为离散扩散模型。这种灵活性使得D3PMs能够适应多种不同的数据类型和应用场景。
尽管D3PMs在多个方面表现出色,但论文也指出了一些潜在的局限性。例如,与强大的自回归模型相比,D3PMs在文本生成方面仍有一定的差距,而在图像质量方面,连续扩散模型仍然具有一定的优势。此外,论文中使用的评估指标,如Inception score和Frechet Inception Distance,基于特定数据分布训练的神经网络,可能无法全面反映模型在所有应用场景中的表现。