\N

Diffusion-DPO：一种基于直接偏好优化的扩散模型对齐新方法

2025-02-22 880

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍了一种名为 Diffusion-DPO 的创新方法，该方法基于直接偏好优化（DPO）原理，简化了扩散模型与人类偏好的对齐过程。相比传统的基于人类反馈的强化学习（RLHF）方法，Diffusion-DPO 避免了显式奖励模型的训练，通过数学近似简化实现流程，并在处理开放词汇表场景时展现出更强的能力。实验结果表明，该方法在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上显著提升了生成图像的质量和可控性，为未来扩散模型的发展提供了新的思路。

本文介绍了一种名为 Diffusion-DPO 的方法，该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案，通过分类目标直接优化策略，以更好地满足人类偏好。

诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段：

预训练阶段：在此阶段，模型在大规模网络数据上进行训练。
对齐阶段：在此阶段，模型通过微调与人类偏好更好地对齐。对齐过程通常采用监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF)，并利用偏好数据进行。

LLM 通常通过以下步骤与人类偏好对齐：首先在演示数据上进行监督微调，然后采用 RLHF 方法。

RLHF 包括从模型输出的比较数据中训练奖励函数，以表示人类偏好，然后使用强化学习来对齐策略模型。

扩散模型对齐

文本到图像扩散模型的对齐：一些方法采用两阶段训练，即在大规模预训练之后，在高质量文本-图像对数据集上进行微调，以策略性地偏置生成过程。然而这种方法的效力与 LLM 中使用的最终阶段对齐方法相比仍有差距。

以下是一些最近的方法：

1. 基于美学数据微调

方法：使用美学分类器对在视觉吸引力方面评价较高的数据集进行微调。
示例：[30, 36] 中所述的方法使用图像数据集，这些数据集已根据其视觉吸引力进行评级，从而使模型倾向于生成具有美学价值的图像。

2. Emu（使用精选的高质量数据进行微调）

方法：Emu 采用一组精选的高质量照片以及人工编写的详细标题来微调预训练模型。
目标：提高视觉吸引力和文本对齐程度（即生成与文本描述紧密匹配的图像）。
优势：增强模型生成具有视觉吸引力的图像并使其与文本良好对齐的能力。

3. 重新标注方法

方法：重写现有图像数据集（通常是网络抓取的）的标题，以提高文本保真度和对齐度。
示例：[15, 39] 中提出的方法侧重于改进图像的文本描述，以提高模型理解和生成基于文本的图像的能力。

4. 人类偏好评分模型

方法：训练模型以基于比较数据集预测人类偏好（例如，用户根据不同标准更喜欢哪个图像）。
示例：在生成偏好数据集 [21, 52, 55] 上训练的模型尝试学习人类偏好，并使用这些偏好来调整模型。
局限性：这些模型对生成过程的影响有限，但它们对于改善整体对齐仍然有用。

5. DOODL（推理时进行美学改进）

方法：DOODL 侧重于在推理期间迭代地提高单个图像生成的美学质量，而不是在训练期间。
目标：在图像生成过程中增强视觉吸引力。
局限性：不涉及模型训练，并且会显著增加推理时间。

6. DRAFT 和 AlignProp（直接奖励最大化）

方法：这些方法在训练期间调整生成模型，以直接优化奖励最大化。
目标：增加生成图像的奖励分数（即，使图像在视觉上更具吸引力或与文本对齐）。
局限性：这些方法在简单的视觉吸引力标准方面表现良好，但缺乏稳定性，并且不适用于来自 CLIP 模型的更细微的奖励，例如文本-图像对齐。

7. 基于强化学习的方法（基于 RL）

方法：DPOK 和 DDPO 是基于 RL 的方法，它们最大化评分奖励，使用强化学习来优化模型。这些方法对相对有限的词汇表应用分布约束。
目标：通过训练模型生成最大化人类定义奖励的图像，使模型的输出与人类偏好对齐。
挑战：这些方法的性能随着提示数量（训练/测试集）的增加而降低，并且在处理开放词汇表的提示时效果较差。

DPOK 和 DDPO 需要奖励模型来指导学习。此奖励模型通常针对一小组提示的特定反馈进行训练。当词汇量扩大时，模型在泛化方面面临挑战，因为奖励模型无法捕获各种提示中人类偏好的完整多样性。

奖励模型通常假设输入（提示）和输出（生成的图像）之间存在固定的关系，这使得在开放词汇表设置中更难以适应更广泛的输入类型。

扩散模型的DPO方法

去噪扩散模型是一种生成模型，它具有离散时间反向过程。

训练通过最小化与此模型相关的证据下界 (ELBO) 来执行：

奖励建模

RLHF

DPO 目标

Eq. (5) 的唯一全局最优解：

奖励函数：

奖励目标（而不是像 Eq. (5) 那样优化奖励函数然后执行 RL）：

直接优化最佳条件分布

扩散模型的 DPO

奖励函数：

奖励目标：

与从 Eq. (6) 到 Eq.(8) 的推导类似，我们可以得到一个直接优化条件分布的目标：（而不是像 Eq. (10) 那样优化奖励函数然后执行 RL）

近似 1

通过对反向过程的这种近似，并利用 Jensen 不等式和函数 −log σ 的凸性，我们可以得到一个上限：

近似 2

（由于从反向联合分布中采样仍然难以处理，因此我们需要另一个近似）

回顾 Eq. (1)

使用 Eq. (1) 和代数运算，最终损失函数为：

实验

论文对 Stable Diffusion 1.5 (SD1.5) 和最先进的开源模型 Stable Diffusion XL-1.0 (SDXL) 基础模型进行了微调。

实验在 Pick-a-Pic 数据集上进行，该数据集包含 由 SDXL-beta 和 Dreamlike（SD 1.5 的微调版本）生成的图像的成对偏好。

总结

本文介绍了一种名为 Diffusion-DPO 的创新方法，它基于直接偏好优化原理，为扩散模型的人类偏好对齐提供了一种更简单有效的解决方案。相比传统的 RLHF 方法，Diffusion-DPO 避免了显式奖励模型的训练过程，通过数学近似简化了实现流程。该方法在处理开放词汇表场景时展现出更强的能力，并在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上得到了验证。这一技术突破为提升 AI 生成图像的质量和可控性提供了新的思路，对扩散模型的未来发展具有重要意义。

论文

https://arxiv.org/abs/2311.12908