扩散模型的多元化应用：药物发现、文本生成、时间序列预测等-阿里云开发者社区

扩散模型的多元化应用：药物发现、文本生成、时间序列预测等

2024-05-18 1038

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： AlphaFold3是DeepMind的蛋白质结构预测软件，它引入扩散模型以提升预测准确性。扩散模型通过逐步添加和去除噪声来理解和生成数据，应用广泛，包括图像、音频、文本和时间序列数据的处理。在图像领域，它们擅长合成、编辑和超分辨率；在文本处理中，扩散模型在代码合成和问答任务中表现出色；在音频和视频生成方面也有重要应用；同时，它们在时间序列预测和增强模型鲁棒性方面也展现出潜力。随着技术发展，扩散模型将在更多领域发挥作用。

AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件，它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型，这使得扩散模型不仅仅可以应用于文生图，其实扩散模型早已经在各个领域中都又所发展，今天我们就来研究一下扩散模型的多元化应用。

扩散模型

我们先从扩散模型说起，如果你了解扩散模型，可以跳过本节

扩散模型是基于噪声和去噪输入。虽然细节各不相同，但我们可以将基于扩散的生成归结为两个步骤-

前向扩散：我们取一个数据样本，如图像，并在每一步中迭代地加入少量的高斯噪声。这慢慢地损坏图像，直到它变成无法识别的噪声。模型学习在每一步中添加的噪声模式，这对于逆过程至关重要。

逆向扩散：我们从第一步的纯噪声开始输入。模型预测前向过程中每一步添加的噪声并将其去除。这逐步去除输入的噪声，逐渐将其转换为有意义的数据样本。

扩散过程有很多重要的数学细节，所以我们这里做了大量的简化，只做最主要的一些细节论述

生成过程的迭代性质，涉及许多去噪步骤，需要大量的计算能力和时间，特别是对于高分辨率数据。这使得它们在实时应用程序或资源受限环境中不太实用。为了提高效率，研究人员正在探索几种途径，包括优化的采样技术，这些技术旨在减少去噪步骤的数量同时保持样本质量。此外，探索潜在空间的扩散可以显著减轻计算负担。

最后，将dm与其他技术(如压缩和其他生成器)结合起来也可以以提高效率。

扩散模型的功能有哪些呢？

高质量生成：扩散模型能够生成具有异常高质量和现实感的数据，这得益于它们通过迭代去噪过程学习数据分布的能力。

多功能性：扩散模型在处理多种数据类型上显示出惊人的灵活性，包括图像、音频、分子等。

逐步控制：扩散模型的逐步生成过程允许用户在最终输出上施加更大的控制权。

为什么扩散模型如此有效？

扩散模型如此有效的一个原因是其逐步去噪的能力，这类似于自回归模型的逐步生成，但扩散模型在每个时间步重新考虑整个输入，使其能在上下文中进行更好的调整。

扩散模型的应用

1、视觉相关任务

扩散模型在图像合成、编辑和超分辨率方面显示出优越的能力，这个也是我们最长间的方式

在视觉方面提高解析度产生更高解析度的影像。像SR3和CDM这样的扩散模型通过迭代去噪来逐步细化图像，从而获得高质量的升级。

另外扩散不仅可以用来填充图像中缺失或损坏的部分。它可以用来在特定的部分中填写全新的部分。

医学图像重建-医学图像是昂贵的。它们更难注释，因为只有专业人士才能这样做。DMs在医学图像重建方面显示出巨大的前景。

另外扩散模型可以通过添加噪声和重建干净的版本来净化对抗性示例，减轻对抗性扰动的影响。我们还可以基于扩散的预处理步骤来增强模型对对抗性攻击的鲁棒性。

扩散模型可用于识别图像中的异常或意外模式。“这些方法可能比基于对抗性训练的替代方法表现得更好，因为它们可以通过有效的采样和稳定的训练方案更好地模拟较小的数据集。”

2、文本处理

尽管在机器翻译方面稍显逊色，扩散模型在代码合成和问答任务中表现出色，甚至超过自动回归模型。

《Transfer Learning for Text Diffusion Models》这篇论文发布了一个AR2Diff的轻量级模型

虽然文本扩散在机器翻译中落后，但它在代码合成和问题回答方面显示出前景，甚至优于自回归模型。这些发现表明，对于长文本来说，文本传播速度更快。

微软的GENIE在论文《Text generation with diffusion language models: a pre-training approach with continuous paragraph denoise》中介绍，是LLM的另一个有趣的扩散模型的例子。

GENIE是一个大规模预训练的扩散语言模型，由一个编码器和一个基于扩散的解码器组成，它可以通过逐步将随机噪声序列转换成连贯的文本序列来生成文本。实验结果表明，在这些基准测试中，GENIE达到了与最先进的自回归模型相当的性能，并且生成了更多样化的文本样本。

Text Diffusion似乎是基于编码器和基于解码器的lm的桥梁，这个方向的研究应该很有意思，当然也和有挑战。

3、音频+视频生成

许多高质量的音频和视频生成器也依赖于扩散模型。“Grad-TTS提出了一种新的文本-语音模型，该模型具有基于分数的解码器和扩散模型。它逐渐变换编码器预测的噪声，并通过单调对齐搜索(Monotonic Alignment Search)的方法进一步与文本输入对齐。Grad-TTS2以自适应方式改进了Grad-TTS。Diffsound提出了一种基于离散扩散模型的非自回归解码器，它在每一步中预测所有的梅尔谱图标记，然后在接下来的步骤中对预测的标记进行细化。EdiTTS利用基于分数的文本到语音模型来改进粗略修改的mel谱图。ProDiff不是估计数据密度的梯度，而是通过直接预测干净数据来参数化去噪扩散模型。

4、时域数据建模

对于基于时间序列的数据来说，缺少数据可能是一个巨大的问题，DMs可以处理TS的数据输入。CSDI利用基于分数的扩散模型，以自监督的方式训练来捕获时间相关性，以实现有效的时间序列输入。“与现有的基于分数的方法不同，条件扩散模型经过明确训练，可以利用观测值之间的相关性。在医疗保健和环境数据方面，CSDI在流行的性能指标上比现有的概率估算方法提高了40-65%。与目前最先进的确定性归算方法相比，CSDI的确定性归算误差降低了5-20%。CSDI还可以应用于时间序列插值和概率预测，并且与现有基线具有竞争力。”