扩散模型(Diffusion Model)是一种基于概率统计和非均衡热力学原理的深度学习生成模型。这类模型最初受到物理中分子扩散过程的启发,应用于机器学习领域时,主要用于学习数据的概率分布,并在此基础上生成新的样本。
扩散模型的核心包含两个主要过程:
前向扩散过程(Forward Process):这一过程通常是对原始数据逐步添加高斯噪声,从而将清晰的数据点转化为越来越随机的状态,最终达到接近高斯噪声分布的程度。
逆向扩散过程(Reverse Process):模型被训练来学习如何通过一系列去噪步骤来逆转前向扩散过程,也就是从随机噪声中逐渐重构出清晰的数据样本。
在实践中,扩散模型利用神经网络作为参数化函数,用于估计每个去噪步骤所需的转换概率。特别是在计算机视觉领域,扩散模型已经展现出了强大的能力,能够生成高质量的图像,并在图像合成、图像修复、图像超分辨率等任务中取得显著成果。此外,随着研究的深入,扩散模型也被扩展应用到了音频、文本和多模态数据的生成任务中。例如,Denoising Diffusion Probabilistic Models (DDPM) 和 Denoising Diffusion Implicit Models (DDIM) 是扩散模型家族中的一些重要变体。