CVPR 2024:生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

简介: 【4月更文挑战第14天】中山大学和微信团队的研究者提出 SingDiffusion,一种解决扩散模型在处理极端亮度图像时的平均亮度问题的新方法。SingDiffusion 可无缝集成到预训练模型中,无需额外训练,通过处理 t=1 时间步长的采样问题,改善了图像生成的亮度偏差。在 COCO 数据集上的实验显示,相较于现有模型,SingDiffusion 在 FID 和 CLIP 分数上表现更优。

91f6a35e6cc65a6444a0f35d3406f017.jpeg
在计算机视觉和图像生成领域,扩散模型因其卓越的性能而备受关注。然而,这些模型在处理极端亮度或暗度图像时常常遭遇挑战,导致生成的图像平均亮度问题。近期,来自中山大学和微信团队的研究者们提出了一种新颖的解决方案——SingDiffusion,有效解决了这一问题。

扩散模型通过学习从噪声到数据分布的逆过程来生成样本。尽管这些模型在多模态内容生成方面取得了显著成就,如图像、音频和视频生成,但其在时间区间端点的奇点处理上存在理论缺陷。特别是在t=0和t=1的时间点,模型的输出往往受限于高斯分布的假设,这在实际应用中导致了图像亮度的偏差。

微信视觉团队的研究者们首先从理论和实践两个角度对奇点问题进行了深入探讨。他们建立了逆过程近似的误差界限,并在理论上证明了在奇点时间步长处的高斯特性。基于这些理论洞见,研究者们确认了t=1处的奇点是可以条件移除的,而t=0处的奇点是扩散模型的固有属性。

为了解决初始奇点时间步长的采样问题,研究者们提出了SingDiffusion方法。这种方法可以无缝集成到现有的预训练模型中,无需额外的训练努力,有效解决了平均亮度问题,并显著提升了模型的生成能力。通过定量分析,SingDiffusion在生成极端亮度或暗度图像方面表现出色,特别是在生成纯白或纯黑背景的图像时,其性能提升尤为明显。

SingDiffusion的核心在于它能够处理t=1时的采样问题,这是大多数现有方法所忽略的。研究者们通过训练一个神经网络来估计初始时间步长的平均图像,从而确保生成的图像符合预期的亮度分布。此外,SingDiffusion还引入了一种规范化方法来处理引导尺度,这在初始奇点时间步长的应用中尤为重要。

在实验部分,研究者们在多个数据集上验证了SingDiffusion的有效性。他们在COCO数据集上使用FID(Fréchet Inception Distance)和CLIP分数来评估生成图像的质量。结果显示,与现有的稳定扩散模型相比,SingDiffusion在这两个指标上都有显著提升。此外,SingDiffusion还能够在不同的引导尺度下保持较低的FID分数,同时实现更高的CLIP分数,表明其在图像真实性和与输入提示的匹配度方面都有优势。

总微信视觉团队的研究者们通过SingDiffusion方法,为解决扩散模型中的奇点问题提供了一种有效的解决方案。然而,尽管SingDiffusion在处理极端亮度图像方面取得了显著进展,但在处理其他类型的奇点问题,如t=0时的采样问题,仍需要进一步的研究和改进。此外,SingDiffusion方法的通用性和在不同模型上的适应性也是未来研究的重要方向。

论文地址:https://arxiv.org/pdf/2403.08381.pdf

目录
相关文章
|
7天前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
15 1
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
46 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
5月前
|
机器学习/深度学习 算法 决策智能
微美全息开发RPSSC技术在高光谱图像分类领域取得重要突破
随着高光谱遥感技术的发展,对于高光谱图像的更加精准的处理需求逐渐增加。在农业、环境监测、资源管理等领域,对高光谱图像进行准确分类是实现智能决策和资源优化利用的基础。
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
147 0
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
146 0
|
12月前
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
133 0
|
12月前
|
编解码 人工智能 自然语言处理
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
扩散+超分辨率模型强强联合,谷歌图像生成器Imagen背后的技术
184 0
|
12月前
|
编解码 人工智能 C++
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(1)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
129 0
|
12月前
|
编解码 测试技术 网络架构
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天(2)
叫板DALL·E 2,预训练大模型做编码器,谷歌把文字转图像模型卷上天
147 0
|
机器学习/深度学习 编解码 vr&ar
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
DALL-E、「女娲」刷屏背后,多模态图像合成与编辑领域进展如何?
132 0