Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了一种名为 Diffusion-DPO 的创新方法,该方法基于直接偏好优化(DPO)原理,简化了扩散模型与人类偏好的对齐过程。相比传统的基于人类反馈的强化学习(RLHF)方法,Diffusion-DPO 避免了显式奖励模型的训练,通过数学近似简化实现流程,并在处理开放词汇表场景时展现出更强的能力。实验结果表明,该方法在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上显著提升了生成图像的质量和可控性,为未来扩散模型的发展提供了新的思路。

本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好

诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段:

  1. 预训练阶段:在此阶段,模型在大规模网络数据上进行训练。
  2. 对齐阶段:在此阶段,模型通过微调与人类偏好更好地对齐。对齐过程通常采用监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF),并利用偏好数据进行。

LLM 通常通过以下步骤与人类偏好对齐:首先在演示数据上进行监督微调,然后采用 RLHF 方法

RLHF 包括从模型输出的比较数据中训练奖励函数,以表示人类偏好,然后使用强化学习来对齐策略模型

扩散模型对齐

文本到图像扩散模型的对齐:一些方法采用两阶段训练,即在大规模预训练之后,在高质量文本-图像对数据集上进行微调,以策略性地偏置生成过程。然而这种方法的效力与 LLM 中使用的最终阶段对齐方法相比仍有差距。

以下是一些最近的方法:

1. 基于美学数据微调

  • 方法:使用美学分类器对在视觉吸引力方面评价较高的数据集进行微调。
  • 示例:[30, 36] 中所述的方法使用图像数据集,这些数据集已根据其视觉吸引力进行评级,从而使模型倾向于生成具有美学价值的图像。

2. Emu(使用精选的高质量数据进行微调)

  • 方法:Emu 采用一组精选的高质量照片以及人工编写的详细标题来微调预训练模型。
  • 目标:提高视觉吸引力和文本对齐程度(即生成与文本描述紧密匹配的图像)。
  • 优势:增强模型生成具有视觉吸引力的图像并使其与文本良好对齐的能力。

3. 重新标注方法

  • 方法:重写现有图像数据集(通常是网络抓取的)的标题,以提高文本保真度和对齐度。
  • 示例:[15, 39] 中提出的方法侧重于改进图像的文本描述,以提高模型理解和生成基于文本的图像的能力。

4. 人类偏好评分模型

  • 方法:训练模型以基于比较数据集预测人类偏好(例如,用户根据不同标准更喜欢哪个图像)。
  • 示例:在生成偏好数据集 [21, 52, 55] 上训练的模型尝试学习人类偏好,并使用这些偏好来调整模型。
  • 局限性:这些模型对生成过程的影响有限,但它们对于改善整体对齐仍然有用。

5. DOODL(推理时进行美学改进)

  • 方法:DOODL 侧重于在推理期间迭代地提高单个图像生成的美学质量,而不是在训练期间。
  • 目标:在图像生成过程中增强视觉吸引力。
  • 局限性:不涉及模型训练,并且会显著增加推理时间。

6. DRAFT 和 AlignProp(直接奖励最大化)

  • 方法:这些方法在训练期间调整生成模型,以直接优化奖励最大化。
  • 目标:增加生成图像的奖励分数(即,使图像在视觉上更具吸引力或与文本对齐)。
  • 局限性:这些方法在简单的视觉吸引力标准方面表现良好,但缺乏稳定性,并且不适用于来自 CLIP 模型的更细微的奖励,例如文本-图像对齐。

7. 基于强化学习的方法(基于 RL)

  • 方法DPOKDDPO 是基于 RL 的方法,它们最大化评分奖励,使用强化学习来优化模型。这些方法对相对有限的词汇表应用分布约束。
  • 目标:通过训练模型生成最大化人类定义奖励的图像,使模型的输出与人类偏好对齐。
  • 挑战:这些方法的性能随着提示数量(训练/测试集)的增加而降低,并且在处理开放词汇表的提示时效果较差。

DPOK 和 DDPO 需要奖励模型来指导学习。此奖励模型通常针对一小组提示的特定反馈进行训练。当词汇量扩大时,模型在泛化方面面临挑战,因为奖励模型无法捕获各种提示中人类偏好的完整多样性。

奖励模型通常假设输入(提示)和输出(生成的图像)之间存在固定的关系,这使得在开放词汇表设置中更难以适应更广泛的输入类型。

扩散模型的DPO方法

去噪扩散模型是一种生成模型,它具有离散时间反向过程。

训练通过最小化与此模型相关的证据下界 (ELBO) 来执行:

奖励建模

RLHF

DPO 目标

Eq. (5) 的唯一全局最优解:

奖励函数:

奖励目标(而不是像 Eq. (5) 那样优化奖励函数然后执行 RL):

直接优化最佳条件分布

扩散模型的 DPO

奖励函数:

奖励目标:

与从 Eq. (6) 到 Eq.(8) 的推导类似,我们可以得到一个直接优化条件分布的目标:(而不是像 Eq. (10) 那样优化奖励函数然后执行 RL)

近似 1

通过对反向过程的这种近似,并利用 Jensen 不等式和函数 −log σ 的凸性,我们可以得到一个上限:

近似 2

(由于从反向联合分布中采样仍然难以处理,因此我们需要另一个近似)

回顾 Eq. (1)

使用 Eq. (1) 和代数运算,最终损失函数为:

实验

论文对 Stable Diffusion 1.5 (SD1.5) 和最先进的开源模型 Stable Diffusion XL-1.0 (SDXL) 基础模型进行了微调。

实验在 Pick-a-Pic 数据集上进行,该数据集包含 由 SDXL-beta 和 Dreamlike(SD 1.5 的微调版本)生成的图像的成对偏好。

总结

本文介绍了一种名为 Diffusion-DPO 的创新方法,它基于直接偏好优化原理,为扩散模型的人类偏好对齐提供了一种更简单有效的解决方案。相比传统的 RLHF 方法,Diffusion-DPO 避免了显式奖励模型的训练过程,通过数学近似简化了实现流程。该方法在处理开放词汇表场景时展现出更强的能力,并在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上得到了验证。这一技术突破为提升 AI 生成图像的质量和可控性提供了新的思路,对扩散模型的未来发展具有重要意义。

论文

https://arxiv.org/abs/2311.12908

目录
相关文章
|
存储 缓存 Linux
如何在Linux环境下对pip的缓存地址进行修改
如何在Linux环境下对pip的缓存地址进行修改
2328 0
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
异构计算 Python
StableDiffusionPipeline
【9月更文挑战第22天】
451 77
|
4月前
|
机器学习/深度学习 存储 算法
如何判断两张图片的相似度?原来图片对比也可以如此简单!
本文介绍了图片对比技术在多个场景中的应用,如图片去重、内容审核、版权维权及相似图片搜索,并详细解析了两种主流的图片对比方法。第一种是**MD5指纹对比**,适合精确匹配完全相同的图片,具有速度快、简单易用的特点,但对稍作修改的图片无能为力。第二种是**图像哈希对比**,包括平均哈希、感知哈希等算法,能够判断图片的相似程度,适用于处理缩放、旋转或亮度调整后的图片,但在语义相似性上仍有局限。最后提到,随着机器学习和深度神经网络的发展,图片相似度判断技术将有更多可能性,值得进一步探索。
1411 6
如何判断两张图片的相似度?原来图片对比也可以如此简单!
|
3月前
|
机器学习/深度学习 数据可视化 PyTorch
Flow Matching生成模型:从理论基础到Pytorch代码实现
本文将系统阐述Flow Matching的完整实现过程,包括数学理论推导、模型架构设计、训练流程构建以及速度场学习等关键组件。通过本文的学习,读者将掌握Flow Matching的核心原理,获得一个完整的PyTorch实现,并对生成模型在噪声调度和分数函数之外的发展方向有更深入的理解。
1112 0
Flow Matching生成模型:从理论基础到Pytorch代码实现
|
8月前
|
人工智能 自然语言处理 算法
【Gemini怎么使用】:Gemini 2.0 国内使用指南
人工智能领域风起云涌,Google 凭借其 Gemini AI 模型的迭代升级,持续引领着技术革新的浪潮。特别是 Gemini 2.0 的发布,标志着 AI 发展进入了一个全新的阶段
5897 14
|
人工智能 自然语言处理 API
阿里云百炼平台上线首个最新文生图模型FLUX中文优化版
由Stable Diffusion团队推出的开源文生图模型FLUX风靡全球,其生成质量媲美Midjourney,被誉为“开源王者”。阿里云百炼平台首发FLUX中文优化版,提升了中文指令的理解与执行能力。开发者可直接在平台上体验并调用FLUX模型,且享有1000张图像的免费生成额度,有效期180天。无需额外部署,即可轻松利用这一先进模型创造高质量图像。
1712 0
|
10月前
|
机器学习/深度学习 算法 网络协议
开源上新|通义语音处理技术ClearerVoice-Studio
开源上新|通义语音处理技术ClearerVoice-Studio
|
10月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
10460 34
Qwen2.5-7B-Instruct Lora 微调
|
存储 小程序 物联网

热门文章

最新文章