告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效(1)

简介: 告诉Stable Diffusion 2.0你不想要什么,生成效果更好:Negative Prompt显奇效


作者:Max Woolf机器之心编译
编辑:悉闲

在这篇博客文 章中,美国数字媒体公司 B uzzFeed 的数据科学家 Max Woolf 做了一项实验,证明 Negative Prompt 可以改善 Stable Diffusion 2.0 的图像生成质量。

StabilityAI 前段时间发布了 StableDiffusion2.0这一全新版本的出现颠覆了整个 AI 生态系统。从架构上看, Stable Diffusion 2.0 与之前的 V1 版本基本相同,只是采用了新的文本编码器(OpenCLIP 而非 OpenAI 的 CLIPText)。Stability AI 宣称 Stable Diffusion 2.0 在算力方面的表现更为优异,但艺术始终是主观的。

使用 Stable Diffusion 2.0 生成的图像示例,图像分辨率为 768x768在发布后的 24 小时内,Reddit 和 Twitter 用户注意到,在完全相同的输入 prompt 和设置下,新模型的性能比 Stability Diffusion 1.5 要差。一些用户还注意到,输入GregRutkowski等在世艺术家的名字对输出结果没有任何影响(Greg Rutkowski 的名字是一个著名的文本 prompt,之前可以让 Stable Diffusion迅速生成Rutkowski风格的绘画,这遭到了Greg Rutkowski本人的质疑)。Greg Rutkowski说,“我在AI工具上遇到的问题是缺乏版权。没有人问他们是否可以用我的工作来训练这些程序。我认为这些工具不应该使用在世艺术家的作品。这是一种不受控制或监管的版权侵犯,是对人权的侵犯。我听说风格是不能有版权的,但我认为在某种程度上应该有。”一些人指出,新模型的训练样本减少了NSFW(NotSuitableForWork)图像的数量,因而导致了这些变化(因为新模型使用NSFW filter 过滤掉一些不可描述的内容)。但在我看来,主要问题在于新版本使用了 OpenCLIP。采用新的文本编码器意味着适用 Stable Diffusion 早期版本的一些假设和 prompt hack 可能失效。另一方面,这又可能引发新的 prompt hack。比如,Stability AI 首席执行官 Emad Mostaque 提到,考虑到模型训练的方式,否定形式的 prompt(negative prompt)应该会更有效。尽管这仍是理论,但真正的实践效果往往更好。

我之前没怎么在 Stable Diffusion 上弄过negative prompt,尽管有传言称这是某些知名商用 Stable Diffusion 服务背后的秘籍。在用 SD 2.0 对negative prompt 进行大量实验之后,我发现,negative prompt 对于从模型中获取良好结果着实意义重大。而最令人惊讶的是,negative prompt 可能远远优于传统 prompt addition。什么是negative prompt?首先我们简单解释一下什么是 negative prompt。与正常的文本到图像 prompt 类似,Negative Prompting 表示你不希望在结果图像中看到的术语。这个强大的功能允许用户从原始生成的图像中删除任何对象、样式或异常。尽管 Stable Diffusion 以人类语言的形式接受被称为 prompt 的输入,但它很难理解否定词,如「no, not, except, without」等。因此,用户需要使用 negative prompting 来完全控制 prompt。再就是关于 prompt 权重的问题。Prompt 权重是 Stable Diffusion 支持的一项技术,可以让用户精细地控制他们的 prompt。使用 prompt 权重,用户可以告诉 Stable Diffusion 哪里应该多关注,哪里应该少关注。

例如 Prompt :柴犬和北极熊(占 0.7)的混合体。由于给北极熊赋予了更多权重,所以在输出图像中看到北极熊特征占主导地位。

我们用 Stable Diffusion 2.0 来测试一下。先回到我的 VQGAN+CLIP prompt(参见:https://minimaxir.com/2021/08/vqgan-clip/),看看它生成的达利风格的赛博朋克森林是个什么样子:

prompt:cyberpunk forest

注:达利是西班牙超现实主义画家,代表作品有《记忆的永恒》等。达利代表作品《记忆的永恒》。假如你想删除树或某种颜色(如绿色),那么这两者(trees、green)就是在 negative prompt 中要写的内容。例如下图中,prompt 为「cyberpunk forest by Salvador Dali」;negative prompt 为 「trees, green」。 prompt:cyberpunk forest by Salvador Dali;negative prompt: trees, green

目录
打赏
0
1
1
0
367
分享
相关文章
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
人类通过自然监督,即探索视觉世界和倾听他人描述情况,学会了毫不费力地识别和定位物体。我们人类对视觉模式的终身学习,并将其与口语词汇联系起来,从而形成了丰富的视觉和语义词汇,不仅可以用于检测物体,还可以用于其他任务,如描述物体和推理其属性和可见性。人类的这种学习模式为我们实现开放世界的目标检测提供了一个可以学习的角度。
一文尽览 | 开放世界目标检测的近期工作及简析!(基于Captioning/CLIP/伪标签/Prompt)(上)
Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法
本文介绍了一种名为 Diffusion-DPO 的创新方法,该方法基于直接偏好优化(DPO)原理,简化了扩散模型与人类偏好的对齐过程。相比传统的基于人类反馈的强化学习(RLHF)方法,Diffusion-DPO 避免了显式奖励模型的训练,通过数学近似简化实现流程,并在处理开放词汇表场景时展现出更强的能力。实验结果表明,该方法在 Stable Diffusion 1.5 和 SDXL-1.0 等主流模型上显著提升了生成图像的质量和可控性,为未来扩散模型的发展提供了新的思路。
32 14
Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法
|
4月前
|
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
60 1
|
5月前
|
两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar,一种创新的方法,旨在提升小型语言模型(SLMs)的推理能力。rStar采用自我对弈的相互生成-判别过程,利用增强版蒙特卡洛树搜索(MCTS)算法生成高质量推理轨迹,并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率,如在GSM8K上,LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而,其计算成本和对SLM自身能力的依赖仍是挑战。
212 7
重要的事情说两遍!Prompt复读机,显著提高LLM推理能力
【10月更文挑战第30天】本文介绍了一种名为“问题重读”(Question Re-reading)的提示策略,旨在提高大型语言模型(LLMs)的推理能力。该策略受人类学习和问题解决过程的启发,通过重新审视输入提示中的问题信息,使LLMs能够提取更深层次的见解、识别复杂模式,并建立更细致的联系。实验结果显示,问题重读策略在多个推理任务上显著提升了模型性能。
100 2
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
小技巧大功效,仅阅读两次提示让循环语言模型超越Transformer++
【8月更文挑战第27天】斯坦福与布法罗大学的研究显示,通过"Just-Read-Twice"(JRT)策略,循环语言模型(RNNs)在多项任务上的表现超越了行业标杆Transformer++模型。JRT策略让RNNs在处理信息时进行两次读取,有效解决长上下文记忆难题,显著提升了性能。实验覆盖FDA、SQUAD等多个任务,均取得明显成效。论文已发布于arXiv。
39 2
ICML 2024 Spotlight:在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好
【7月更文挑战第13天】ICML 2024 Spotlight: Decoding-time Realignment改善语言模型,减少幻觉,增强人类偏好一致性。研究提出在解码阶段动态调整模型对齐,通过控制参数实现对齐与性能平衡,提高泛化能力。尽管面临参数选择及计算资源挑战,该技术为优化AI文本生成对齐提供了新途径。[论文链接](https://openreview.net/forum?id=n8g6WMxt09&noteId=E3VVDPVOPZ)**
110 9
大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践
阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对DPO算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现大语言模型的DPO对齐微调。本文以阿里云最近推出的开源大型语言模型Qwen2(通义千问2)系列为例,介绍如何在PAI-QuickStart实现Qwen2的DPO算法对齐微调。
Sora信息问题之Sora对caption训练数据匮乏的问题如何解决
Sora信息问题之Sora对caption训练数据匮乏的问题如何解决
56 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等