理论到应用,朱军教授带团队解读扩散概率模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 理论到应用,朱军教授带团队解读扩散概率模型


2022 年以来,扩散模型成为计算机视觉领域最热门的话题之一。扩散模型在深度生成模型中自成一派,展示出强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。


迄今为止,扩散模型已被应用于各种生成式建模任务,如图像生成、图像超分、图像修复、图像编辑、图像转换等等。可以看到,这一方向的论文数量正在以非常快的速度增长,而扩散概率模型正是其中一个重要的类别。

在最新一期的线上分享中,机器之心邀请到了清华大学计算机系教授朱军为我们介绍关于扩散概率模型的最新进展。


分享主题:扩散概率模型的理论及应用

分享摘要:本次分享中将介绍朱军教授团队关于扩散概率模型的最新进展。首先,将简要介绍深度生成模型的基本原理和典型进展。然后,介绍扩散概率模型的两个代表性进展:第一个工作是《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》。该工作给出了扩散概率模型逆向过程最优均值和最优方差的解析解。该解析解表明了一个令人惊讶的结论是,最优均值和最优方差均由得分函数决定。因此,一个预训练好的得分模型便可同时估计最优均值和最优方差。此外,根据该解析解的形式,我们能界定出最优方差的上下界,并且在数值上表明该上下界是紧的。在实际中,通过估计最优的方差,我们能提升模型在密度估计上的性能,以及显著提升模型的采样速度。第二个工作是《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》。该工作从数学上推导出了扩散常微分方程模型(diffusion ODEs)的极其简洁的解的形式,并基于该形式设计了误差尽可能最小的高阶常微分方程求解器,称为 DPM-Solver。DPM-Solver 无需任何额外训练,并同时适用于连续时间情形与离散时间情形的扩散模型。实验结果表明,DPM-Solver 可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片,在不同分辨率的数据集中都取得了显著优于所有已有算法的加速效果。嘉宾简介:朱军,清华大学计算机系 Bosch AI 教授、人智所所长,瑞莱智慧联合创始人兼首席科学家,曾任卡内基梅隆大学兼职教授。长期从事机器学习研究,特别是概率机器学习、贝叶斯方法的基础理论、高效算法和编程库,并利用贝叶斯方法研究深度神经网络的对抗鲁棒性以及复杂环境下的决策学习等问题。担任 IEEE TPAMI 的副主编,ICML、NeurIPS、ICLR 等国际会议资深领域主席 / 领域主席 20 余次。曾获科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR 杰出论文奖等,入选万人计划领军人才、MIT TR35 中国先锋者、IEEE“AI’s 10 to Watch”、北京市优秀青年人才等,带领团队研制 “珠算” 深度概率编程库、“天授”强化学习库和 Ares 对抗攻防平台。获首届 “对抗样本攻防竞赛” 国际竞赛所有三个任务的冠军、ViZDoom 对抗决策国际竞赛 2018 年冠军等。鲍凡同学在扩散概率模型上做出了突出成果,他作为一作的论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》获得世界级学术奖项 ICLR 2022 杰出论文奖,是该会议首篇且唯一一篇由中国大陆单位独立完成的获奖论文。该项目产生了广泛的影响力,作为核心技术被应用到 OpenAI 发布的超大规模跨模态生成模型 DALL·E 2 上。他积极探索扩散概率模型的应用场景,在扩散模型的加速、可控生成、基本架构方面产出近十篇论文,在理论研究及实践应用上均有出色的成果贡献。路橙同学致力于研究扩散概率模型的底层原理与算法,他作为一作的论文《DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps》获得 Neurips 2022 Oral(接受率约 1.7%),是目前扩散模型无需额外训练的最快的采样算法,可在 20 步左右达到几乎收敛的采样,甚至在 10 步左右也可以生成较高质量的图片。该项目在各大开源社区产生了广泛的影响,目前项目 Github 获得 300+ star,并已被扩散模型主流库 Diffusers 支持。该算法在 Stable-Diffusion 上仅仅使用 20-25 步就可生成极高质量的图片,是目前 Stable-Diffusion 在 huggingface spaces 的官方示例的默认采样算法,在 DreamStudio、StableBoost、Stable-Diffusion-WebUI 等各大 text-to-image 项目中也为公认的加速效果最好的算法。此外,他积极探索扩散概率模型的底层原理,在扩散常微分方程模型的最大似然训练算法、高阶去噪得分匹配算法等方面做出了重要的理论贡献。

相关文章
|
5月前
|
Ubuntu 虚拟化 Windows
无影云电脑选择哪个操作系统Windows server 2019还是Ubuntu?
在选择阿里云无影云电脑的操作系统时,Windows Server 2019 和 Ubuntu 各有优势。Windows适合依赖微软生态的企业级应用,提供图形化界面和高安全性;Ubuntu则轻量、经济,适合开源工具链和容器化部署。根据应用场景、资源占用、安全性、开发效率及成本考量,选择最适合的系统。条件允许下,可采用混合方案满足多样化需求。
|
安全 Linux iOS开发
Nmap 使用指南:安装、优缺点及备忘单
【8月更文挑战第20天】
2483 0
|
分布式计算 大数据 数据挖掘
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例是阿里云的第八代云服务器实例规格,是除了计算型c7和c8y、通用型g7与g8y、内存型r7与r8y之外同样深受用户喜欢的云服务器实例规格。本文将详细介绍阿里云第八代云服务器中的计算型c8i、通用型g8i、以及内存型r8i实例,包括它们的技术特性、适用场景以及最新的活动价格信息。
阿里云服务器计算型c8i、通用型g8i、内存型r8i实例测评与价格参考
NPM——删除已发布的包
NPM——删除已发布的包
287 1
|
算法 小程序 JavaScript
【工具】我错了,这工具才是截图软件的神
本文介绍了一款名为Pixpin的强大截图工具,作者曾是Snipaste的忠实用户,但在尝试Pixpin后决定改换门庭。Pixpin不仅具备强大的截图功能,还支持文本识别、节点标注、长截图、颜色识别及贴图等功能,并且拥有活跃的社区反馈机制。文章详细讲解了Pixpin的各项特色功能及其使用方法,并提供了官方下载链接。通过实际操作演示,展示了Pixpin的便捷性和实用性。
657 0
【工具】我错了,这工具才是截图软件的神
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】DoubleAttention: 双重注意力机制,全局特征聚合和分配
YOLOv8专栏探讨了该目标检测模型的创新改进,如双重注意力块,它通过全局特征聚合和分配提升效率。该机制集成在ResNet-50中,在ImageNet上表现优于ResNet-152。文章提供了论文、代码链接及核心代码示例。更多实战案例与详细配置见相关CSDN博客链接。
|
测试技术 网络架构 计算机视觉
中科院领衔发表首篇基于扩散模型的图像编辑综述
【2月更文挑战第17天】中科院领衔发表首篇基于扩散模型的图像编辑综述
244 1
中科院领衔发表首篇基于扩散模型的图像编辑综述
|
应用服务中间件 nginx
[nginx]lua读取请求体
[nginx]lua读取请求体
185 0
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 注意力机制 | 添加适用于遥感图像的LSKblock注意力——【二次创新+完整代码】
遥感目标检测的研究主要集中在改进方向边界框的表示上,而忽略了遥感场景中独特的先验知识。 这类先验知识对于准确检测微小目标至关重要,因为这些目标往往需要更大的上下文信息才能被正确识别。提出的 LSKNet 可以动态调整其大的空间感受野,以更好地模拟不同目标的距离上下文,从而提高遥感目标检测的精度。 LSKNet 是第一个在遥感目标检测中探索大选择性核机制的方法。
|
存储 编译器 Linux
完全理解ARM启动流程:Uboot-Kernel
完全理解ARM启动流程:Uboot-Kernel
1296 0

热门文章

最新文章