2022 年以来,扩散模型成为计算机视觉领域最热门的话题之一。扩散模型在深度生成模型中自成一派,展示出强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。
迄今为止,扩散模型已被应用于各种生成式建模任务,如图像生成、图像超分、图像修复、图像编辑、图像转换等等。可以看到,这一方向的论文数量正在以非常快的速度增长,而扩散概率模型正是其中一个重要的类别。
在最新一期的线上分享中,机器之心邀请到了清华大学计算机系教授朱军为我们介绍关于扩散概率模型的最新进展。
分享主题:扩散概率模型的理论及应用
分享摘要:本次分享中将介绍朱军教授团队关于扩散概率模型的最新进展。首先,将简要介绍深度生成模型的基本原理和典型进展。然后,介绍扩散概率模型的两个代表性进展:第一个工作是《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》。该工作给出了扩散概率模型逆向过程最优均值和最优方差的解析解。该解析解表明了一个令人惊讶的结论是,最优均值和最优方差均由得分函数决定。因此,一个预训练好的得分模型便可同时估计最优均值和最优方差。此外,根据该解析解的形式,我们能界定出最优方差的上下界,并且在数值上表明该上下界是紧的。在实际中,通过估计最优的方差,我们能提升模型在密度估计上的性能,以及显著提升模型的采样速度。第二个工作是《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》。该工作从数学上推导出了扩散常微分方程模型(diffusion ODEs)的极其简洁的解的形式,并基于该形式设计了误差尽可能最小的高阶常微分方程求解器,称为 DPM-Solver。DPM-Solver 无需任何额外训练,并同时适用于连续时间情形与离散时间情形的扩散模型。实验结果表明,DPM-Solver 可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片,在不同分辨率的数据集中都取得了显著优于所有已有算法的加速效果。嘉宾简介:朱军,清华大学计算机系 Bosch AI 教授、人智所所长,瑞莱智慧联合创始人兼首席科学家,曾任卡内基梅隆大学兼职教授。长期从事机器学习研究,特别是概率机器学习、贝叶斯方法的基础理论、高效算法和编程库,并利用贝叶斯方法研究深度神经网络的对抗鲁棒性以及复杂环境下的决策学习等问题。担任 IEEE TPAMI 的副主编,ICML、NeurIPS、ICLR 等国际会议资深领域主席 / 领域主席 20 余次。曾获科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR 杰出论文奖等,入选万人计划领军人才、MIT TR35 中国先锋者、IEEE“AI’s 10 to Watch”、北京市优秀青年人才等,带领团队研制 “珠算” 深度概率编程库、“天授”强化学习库和 Ares 对抗攻防平台。获首届 “对抗样本攻防竞赛” 国际竞赛所有三个任务的冠军、ViZDoom 对抗决策国际竞赛 2018 年冠军等。鲍凡同学在扩散概率模型上做出了突出成果,他作为一作的论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》获得世界级学术奖项 ICLR 2022 杰出论文奖,是该会议首篇且唯一一篇由中国大陆单位独立完成的获奖论文。该项目产生了广泛的影响力,作为核心技术被应用到 OpenAI 发布的超大规模跨模态生成模型 DALL·E 2 上。他积极探索扩散概率模型的应用场景,在扩散模型的加速、可控生成、基本架构方面产出近十篇论文,在理论研究及实践应用上均有出色的成果贡献。路橙同学致力于研究扩散概率模型的底层原理与算法,他作为一作的论文《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》获得 Neurips 2022 Oral(接受率约 1.7%),是目前扩散模型无需额外训练的最快的采样算法,可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片。该项目在各大开源社区产生了广泛的影响,目前项目 Github 获得 300+ star,并已被扩散模型主流库 Diffusers 支持。该算法在 Stable-Diffusion 上仅仅使用 20-25 步就可生成极高质量的图片,是目前 Stable-Diffusion 在 huggingface spaces 的官方示例的默认采样算法,在 DreamStudio、StableBoost、Stable-Diffusion-WebUI 等各大 text-to-image 项目中也为公认的加速效果最好的算法。此外,他积极探索扩散概率模型的底层原理,在扩散常微分方程模型的最大似然训练算法、高阶去噪得分匹配算法等方面做出了重要的理论贡献。