Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 本文介绍了一种名为 Diffusion-DPO 的创新方法,该方法基于直接偏好优化(DPO)原理,简化了扩散模型与人类偏好的对齐过程。相比传统的基于人类反馈的强化学习(RLHF)方法,Diffusion-DPO 避免了显式奖励模型的训练,通过数学近似简化实现流程,并在处理开放词汇表场景时展现出更强的能力。实验结果表明,该方法在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上显著提升了生成图像的质量和可控性,为未来扩散模型的发展提供了新的思路。

本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好

诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段:

  1. 预训练阶段:在此阶段,模型在大规模网络数据上进行训练。
  2. 对齐阶段:在此阶段,模型通过微调与人类偏好更好地对齐。对齐过程通常采用监督微调 (SFT) 和基于人类反馈的强化学习 (RLHF),并利用偏好数据进行。

LLM 通常通过以下步骤与人类偏好对齐:首先在演示数据上进行监督微调,然后采用 RLHF 方法

RLHF 包括从模型输出的比较数据中训练奖励函数,以表示人类偏好,然后使用强化学习来对齐策略模型

扩散模型对齐

文本到图像扩散模型的对齐:一些方法采用两阶段训练,即在大规模预训练之后,在高质量文本-图像对数据集上进行微调,以策略性地偏置生成过程。然而这种方法的效力与 LLM 中使用的最终阶段对齐方法相比仍有差距。

以下是一些最近的方法:

1. 基于美学数据微调

  • 方法:使用美学分类器对在视觉吸引力方面评价较高的数据集进行微调。
  • 示例:[30, 36] 中所述的方法使用图像数据集,这些数据集已根据其视觉吸引力进行评级,从而使模型倾向于生成具有美学价值的图像。

2. Emu(使用精选的高质量数据进行微调)

  • 方法:Emu 采用一组精选的高质量照片以及人工编写的详细标题来微调预训练模型。
  • 目标:提高视觉吸引力和文本对齐程度(即生成与文本描述紧密匹配的图像)。
  • 优势:增强模型生成具有视觉吸引力的图像并使其与文本良好对齐的能力。

3. 重新标注方法

  • 方法:重写现有图像数据集(通常是网络抓取的)的标题,以提高文本保真度和对齐度。
  • 示例:[15, 39] 中提出的方法侧重于改进图像的文本描述,以提高模型理解和生成基于文本的图像的能力。

4. 人类偏好评分模型

  • 方法:训练模型以基于比较数据集预测人类偏好(例如,用户根据不同标准更喜欢哪个图像)。
  • 示例:在生成偏好数据集 [21, 52, 55] 上训练的模型尝试学习人类偏好,并使用这些偏好来调整模型。
  • 局限性:这些模型对生成过程的影响有限,但它们对于改善整体对齐仍然有用。

5. DOODL(推理时进行美学改进)

  • 方法:DOODL 侧重于在推理期间迭代地提高单个图像生成的美学质量,而不是在训练期间。
  • 目标:在图像生成过程中增强视觉吸引力。
  • 局限性:不涉及模型训练,并且会显著增加推理时间。

6. DRAFT 和 AlignProp(直接奖励最大化)

  • 方法:这些方法在训练期间调整生成模型,以直接优化奖励最大化。
  • 目标:增加生成图像的奖励分数(即,使图像在视觉上更具吸引力或与文本对齐)。
  • 局限性:这些方法在简单的视觉吸引力标准方面表现良好,但缺乏稳定性,并且不适用于来自 CLIP 模型的更细微的奖励,例如文本-图像对齐。

7. 基于强化学习的方法(基于 RL)

  • 方法DPOKDDPO 是基于 RL 的方法,它们最大化评分奖励,使用强化学习来优化模型。这些方法对相对有限的词汇表应用分布约束。
  • 目标:通过训练模型生成最大化人类定义奖励的图像,使模型的输出与人类偏好对齐。
  • 挑战:这些方法的性能随着提示数量(训练/测试集)的增加而降低,并且在处理开放词汇表的提示时效果较差。

DPOK 和 DDPO 需要奖励模型来指导学习。此奖励模型通常针对一小组提示的特定反馈进行训练。当词汇量扩大时,模型在泛化方面面临挑战,因为奖励模型无法捕获各种提示中人类偏好的完整多样性。

奖励模型通常假设输入(提示)和输出(生成的图像)之间存在固定的关系,这使得在开放词汇表设置中更难以适应更广泛的输入类型。

扩散模型的DPO方法

去噪扩散模型是一种生成模型,它具有离散时间反向过程。

训练通过最小化与此模型相关的证据下界 (ELBO) 来执行:

奖励建模

RLHF

DPO 目标

Eq. (5) 的唯一全局最优解:

奖励函数:

奖励目标(而不是像 Eq. (5) 那样优化奖励函数然后执行 RL):

直接优化最佳条件分布

扩散模型的 DPO

奖励函数:

奖励目标:

与从 Eq. (6) 到 Eq.(8) 的推导类似,我们可以得到一个直接优化条件分布的目标:(而不是像 Eq. (10) 那样优化奖励函数然后执行 RL)

近似 1

通过对反向过程的这种近似,并利用 Jensen 不等式和函数 −log σ 的凸性,我们可以得到一个上限:

近似 2

(由于从反向联合分布中采样仍然难以处理,因此我们需要另一个近似)

回顾 Eq. (1)

使用 Eq. (1) 和代数运算,最终损失函数为:

实验

论文对 Stable Diffusion 1.5 (SD1.5) 和最先进的开源模型 Stable Diffusion XL-1.0 (SDXL) 基础模型进行了微调。

实验在 Pick-a-Pic 数据集上进行,该数据集包含 由 SDXL-beta 和 Dreamlike(SD 1.5 的微调版本)生成的图像的成对偏好。

总结

本文介绍了一种名为 Diffusion-DPO 的创新方法,它基于直接偏好优化原理,为扩散模型的人类偏好对齐提供了一种更简单有效的解决方案。相比传统的 RLHF 方法,Diffusion-DPO 避免了显式奖励模型的训练过程,通过数学近似简化了实现流程。该方法在处理开放词汇表场景时展现出更强的能力,并在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上得到了验证。这一技术突破为提升 AI 生成图像的质量和可控性提供了新的思路,对扩散模型的未来发展具有重要意义。

论文

https://arxiv.org/abs/2311.12908

目录
相关文章
|
4月前
|
自然语言处理 测试技术 Python
小红书开源发布 FireRed-Image-Edit 1.0:高质量训练数据,性能屠榜三项核心评测
2月14日,小红书FireRedTeam开源FireRed-Image-Edit-1.0图像编辑模型。该模型在ImgEdit、GEdit等基准测试中全面超越现有开源方案,风格迁移(4.97分)等维度甚至优于Nano-Banana、Seedream4.0等闭源模型,支持文本保留、老照片修复、多图虚拟试衣等能力。
1423 6
|
8月前
|
自然语言处理 物联网 vr&ar
图像理解与生成统一模型——前沿模型架构理解
前言生成式多模态模型近年来一直是业界的研究热点。视觉语言模型(VLM)一直是多模态文本生成领域的核心路线,能够完成图像理解任务;扩散模型(Diffusion Model)则一直是图像和视频生成领域的核心方法。
1338 9
|
5月前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
3735 1
|
2月前
|
人工智能 搜索推荐
阿里 Wan2.7-Image 重磅发布:告别 AI 标准脸,用“活人感”与精准操控重塑图像生成
阿里巴巴发布全新图像生成与编辑模型Wan2.7-Image,官网:https://t.aliyun.com/U/fPVHqY 突破AI生图瓶颈:支持“活人感”虚拟捏脸、Hex色值精准调色、3K Token超长文本印刷级渲染,并具备交互式编辑与多主体一致性能力,实现从“抽卡式”到“工业级”可控创作。
1560 1
|
机器学习/深度学习 人工智能 数据可视化
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
3448 1
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
|
8月前
|
机器学习/深度学习 数据采集 监控
107_DPO:直接偏好优化
在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到如今的直接偏好优化(DPO),对齐技术经历了显著的迭代与创新。
1494 1
|
10月前
|
文字识别 自然语言处理 物联网
Qwen‑Image 如何实现 95 %+ 多语种文本渲染准确率
摘要:依托跨语种海量高质量数据、20 B 参数的双通道 MMDiT 架构,以及由浅入深的课程式多任务训练策略,Qwen‑Image 将开源扩散模型在文字渲染上的字符准确率提升到 95 %以上,并保持段落级排版一致性。下文将从数据、模型、训练、评测四个维度拆解这一结果的技术原理,并给出快速复现与未来展望。
570 0
|
异构计算 Python
StableDiffusionPipeline
【9月更文挑战第22天】
745 77
|
存储 人工智能 文字识别
VideoRAG:长视频理解的检索增强生成技术,支持多模态信息提取,能与任何 LVLM 兼容
VideoRAG 是一种用于长视频理解的检索增强生成技术,通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型更好地理解和处理长视频内容。
1142 10
VideoRAG:长视频理解的检索增强生成技术,支持多模态信息提取,能与任何 LVLM 兼容

热门文章

最新文章