论文介绍:探索离散状态空间中的去噪扩散模型

简介: 【4月更文挑战第8天】新研究提出离散去噪扩散概率模型(D3PMs),扩展了在图像和音频生成上成功的DDPMs,专注于离散数据如文本和图像分割。D3PMs通过结构化的离散腐败过程改进生成质量,无需将数据转化为连续空间,允许嵌入领域知识。实验显示,D3PMs在字符级文本生成和CIFAR-10图像数据集上表现出色。尽管有局限性,如在某些任务上不及自回归模型,D3PMs的灵活性使其适用于多样化场景。

59d2755551cb8bea957b8e1da6af278e.jpeg
在人工智能领域,生成模型的研究一直是一个热门话题。这类模型的目标是学习数据的分布,以便能够生成新的、与训练数据相似的样本。近年来,去噪扩散概率模型(DDPMs)在图像和音频生成方面取得了显著的成果。然而,大多数研究集中在连续状态空间的模型上,而对于离散数据,如文本和图像分割,相应的研究则相对较少。最近,一篇论文提出了一种新的离散去噪扩散概率模型(D3PMs),为这一领域带来了新的视角。

该论文首先介绍了生成建模的重要性,并回顾了包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归神经网络模型在内的多种生成方法。这些方法各有优势,但也存在样本质量、采样速度、对数似然和训练稳定性等方面的权衡。扩散模型作为一种新兴的生成模型,通过训练一个参数化的马尔可夫链来逆转一个预定义的正向过程,即一个逐渐将训练数据破坏成纯噪声的随机过程,从而生成新的样本。

D3PMs的创新之处在于,它不仅继承了DDPMs的优点,还通过引入结构化的离散腐败过程来改进和扩展离散扩散模型。这种方法不需要将离散数据放松或嵌入到连续空间,而是可以将结构或领域知识嵌入到正向过程中使用的转移矩阵中。论文通过实验表明,这种灵活性可以显著提高图像和文本领域的生成质量。

在文本生成方面,D3PMs在字符级文本生成上取得了强大的结果,并且在扩展到大型词汇表和长序列长度时仍然表现出色。在图像数据集CIFAR-10上,D3PMs的样本质量和对数似然与连续空间DDPM模型相当,甚至有所超越。

此外,论文还探讨了D3PMs与现有概率模型之间的联系,包括BERT和自回归模型。通过将D3PMs的转换矩阵设置为特定形式,可以模拟BERT的去噪目标,或者将D3PMs视为离散扩散模型。这种灵活性使得D3PMs能够适应多种不同的数据类型和应用场景。

尽管D3PMs在多个方面表现出色,但论文也指出了一些潜在的局限性。例如,与强大的自回归模型相比,D3PMs在文本生成方面仍有一定的差距,而在图像质量方面,连续扩散模型仍然具有一定的优势。此外,论文中使用的评估指标,如Inception score和Frechet Inception Distance,基于特定数据分布训练的神经网络,可能无法全面反映模型在所有应用场景中的表现。

论文地址:https://arxiv.org/pdf/2107.03006.pdf

目录
相关文章
|
机器学习/深度学习 传感器 资源调度
【图像去噪】基于隐马尔可夫模型实现图像去噪处理附matlab代码
【图像去噪】基于隐马尔可夫模型实现图像去噪处理附matlab代码
|
29天前
|
机器学习/深度学习 调度 知识图谱
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
近年来,深度神经网络成为时间序列预测的主流方法。自监督学习通过从未标记数据中学习,能够捕获时间序列的长期依赖和局部特征。TimeDART结合扩散模型和自回归建模,创新性地解决了时间序列预测中的关键挑战,在多个数据集上取得了最优性能,展示了强大的泛化能力。
70 0
TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
141 10
|
4月前
|
机器学习/深度学习 算法 PyTorch
使用Pytorch中从头实现去噪扩散概率模型(DDPM)
在本文中,我们将构建基础的无条件扩散模型,即去噪扩散概率模型(DDPM)。从探究算法的直观工作原理开始,然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。
8713 3
|
6月前
|
算法 vr&ar
状态空间模型:卡尔曼滤波器KFAS建模时间序列
状态空间模型:卡尔曼滤波器KFAS建模时间序列
|
算法
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
|
机器学习/深度学习 传感器 算法
【视频去噪】基于全变异正则化最小二乘反卷积是最标准的图像处理、视频去噪研究(Matlab代码实现)
【视频去噪】基于全变异正则化最小二乘反卷积是最标准的图像处理、视频去噪研究(Matlab代码实现)
|
编解码 算法 数据可视化
【高光谱图像的去噪算法】通过全变异最小化对受激拉曼光谱图像进行去噪研究(Matlab代码实现)
【高光谱图像的去噪算法】通过全变异最小化对受激拉曼光谱图像进行去噪研究(Matlab代码实现)
105 0
|
机器学习/深度学习 算法
MATLB|基于小波神经网络的短时交通流量时间序列预测
MATLB|基于小波神经网络的短时交通流量时间序列预测
119 0
|
机器学习/深度学习 人工智能 算法
【Pytorch神经网络理论篇】 24 神经网络中散度的应用:F散度+f-GAN的实现+互信息神经估计+GAN模型训练技巧
MINE方法中主要使用了两种技术:互信息转为神经网络模型技术和使用对偶KL散度计算损失技术。最有价值的是这两种技术的思想,利用互信息转为神经网络模型技术,可应用到更多的提示结构中,同时损失函数也可以根据具体的任务而使用不同的分布度量算法。
487 0