AI 绘画Stable Diffusion 研究(十五)SD Embedding详解

简介: AI 绘画Stable Diffusion 研究(十五)SD Embedding详解

大家还记得 AI 绘画Stable Diffusion 研究(七) 一文读懂 Stable Diffusion 工作原理 这篇文章中,曾提到过词嵌入(Embedding)吗?


我们来简单回顾一下:Embedding 将输入的tokens转换为一个连续的向量,然后stable diffusion再将 Embedding 向量 通过text transformer转换后,作为模型输入,进行训练。


那在上一篇中只是简单提到了Embedding, 对于我们实际使用stable diffusion过程中,可能很多朋友对Embedding的概念还不是很清楚。今天我们就来详细介绍一下Embedding, 它到底是干嘛的?有什么作用?以及应该怎么安装和使用Embedding ?


一、Embedding 的介绍


1、Embedding是什么?


Embedding 又名 textual inversion 中文名:“嵌入或文本反转”。

计算机科学中,Embedding是将高维数据映射到低维空间的过程。

在图像处理中,Embedding通常用于将图像转换为向量表示,以便进行机器学习和深度学习任务。


在使用stable diffusion进行绘画时,Embedding可以用于将输入的图像转换为向量表示,以便于算法对其进行处理和生成新的图像。这种技术可以使算法更加高效地处理图像数据,并提高生成图像的质量和准确性。


2、Embedding有什么作用?


通俗来讲,Embedding 的作用就是对提示词进行打包。

如果你有做 UI 的经验,那么应该知道组件的概念。

在 Stable Diffusion 中,Embedding 技术就可以被理解为一种组件,它可以将输入数据转换成向量表示,方便模型进行处理和生成。

在日常使用中,Embedding 技术通常用于控制人物的动作和特征,或者生成特定的画风。


我们来举例,思考一个问题:

如果我们直接使用原版本的stable diffusion 文生图功能, 不使用stable diffusion 任何插件,我们应该怎么来生成如下的图片呢?



想必大家首先想到的是,写一大堆的提示词来进行控制生成,类似例如:

masterpiece, high-quality,1girl,clothes with Pink pattern,(brown hair), pinkearphones, green pattern on the earphones, blue tights, white gloves, ((pinkpattern on the clothes)), cat pattern on the face, detailed eyes, (pink theme), rabbitdecoration on the chest, green word pattern, sewing line on the clothes, long hair.thin girl, delicate face, beautiful face, melon face, skin full of details, pinkbackground, white gloves, thin neck, Sexy figure, (brown eyes:1.2), smile, wearingwhite shoes, green patterns, blushing,.....以下省略N个tag


但是,如果我们引入Embedding 后,只需要如下的提示词就可以生成上面的图:

masterpiece, high-quality,corneo dva


通过上面的问题,相信大家已经对 Embedding 的作用有所理解了吧。


3、Embedding 的特点


相比于其他模型来说(如 LORA),Embedding 文件的大小只有几十 KB。

除了还原度对比 LORA 差一些外,在存储和使用上却更方便。


总而言之:

Embedding 技术将输入数据转换为向量表示,为模型的处理和生成提供了便利。

通过使用 Embedding,我们可以更加轻松地生成符合预期的样本,而不需要手动输入大量的描述词汇。


二、Embedding下载和安装


既然Embedding 这么便利,我们一定得好好用起来,那么在哪里可以下载呢?

主要还是在c站下载。

接下来,就跟着我的演示步骤,实际操作一下吧。


第一步,打开c站,搜索 Embedding



第二步,选择喜欢的Embedding 下载


这里演示,我们选择这个骑马的外星人,点击“Download”下载:


下载后,我们得到 16-token-negative-deliberate-neg.pt 这个文件。


第三步 Embedding安装


将文件 16-token-negative-deliberate-neg.pt 拷贝到 sd-webui-aki-v4.2\embeddings 目录下。


\sd-webui-aki-v4.2\embeddings


记得重启stable diffusion 才能生效。


三、Embedding 的使用


1、功能栏区域,选择文生图,然后选择右侧生成按钮下方 “显示/隐藏扩展模型” 图标


如图:


切换到嵌入式 (Enbedding)标签页面 :


2、根据 Enbedding 模型演示图片 参数进行设置


  • 正向提示词输入
an astronaut riding a horse on the moon, 8k uhd

  • 反向提示词输入
3d render


  • 选择下方刚刚安装的Enbedding : 16-token-negative-deliberate-neg



反向提示词输入框中会自动添加 16-token-negative-deliberate-neg 模型提示词


如图:


  • 采样方法设置 : Euler
  • 迭代步数设置:50
  • 勾选高清分辨率修复
  • 随机种子设置:43


4、点击“生成”按钮,查看效果



由此可见 Embedding真是一个很有用东西,通过简单的一个提示词就作出有自己特色的作品,感兴趣的朋友赶快玩起来吧~

相关文章
|
4天前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
1月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
63 7
|
1月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记八:基于mediapipe的虚拟绘画
该项目利用MediaPipe手部关键点识别技术,实现了隔空绘画功能。用户可以通过手势控制绘画工具,选择颜色或橡皮擦。环境配置基于`mediapipe_env`,在PyCharm中运行。项目包括两个文件:`AiVirtualPainter.py`负责绘画逻辑,`HandTrackingModule.py`用于手部关键点检测。此项目展示了AI技术在互动应用中的潜力,适合初学者实践与学习。
57 10
|
1月前
|
人工智能 自然语言处理 计算机视觉
比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
【9月更文挑战第6天】最近,一篇论文在AI领域引起广泛关注,展示了如何以极低成本训练高质量文本生成图像(T2I)模型。研究者通过随机遮蔽图像中75%的patch并采用延迟遮蔽策略,大幅降低计算成本,同时结合Mixture-of-Experts(MoE)层提升性能。最终,他们仅用1890美元就训练出了一个拥有11.6亿参数的模型,在COCO数据集上取得12.7的FID分数。这一成果比Stable Diffusion成本低118倍,为资源有限的研究人员提供了新途径。尽管如此,该方法在其他数据集上的表现及进一步降低成本的可行性仍需验证。
45 1
|
3月前
|
机器学习/深度学习 人工智能 算法
解决方案评测:通义万相 AI 绘画创作
通义万相 AI 绘画创作工具在功能、使用体验等方面表现出色,为用户提供了一种便捷、高效的绘画创作方式。虽然存在一些不足之处,但随着技术的不断发展和优化,相信其性能和表现会不断提升。对于艺术家、设计师、创意工作者以及普通爱好者来说,通义万相都是一款值得尝试和探索的 AI 绘画工具。
345 4
解决方案评测:通义万相 AI 绘画创作
|
3月前
|
人工智能 弹性计算 自然语言处理
通义万相AI创作绘画产品方案产品体验
本次我有幸接触并体验了阿里云通义万相这一创新的AI绘画工具方案。该方案它是在利用人工智能技术,为用户提供创新、便捷的绘画创作体验。在体验过程中,我主要关注了产品的易用性、功能性、创新性、用户体验及方案本身等方面。
159 3
|
3月前
|
弹性计算 人工智能 对象存储
来自通义万相的创意加速器:AI 绘画创作
【7月更文挑战第11天】来自通义万相的创意加速器:AI 绘画创作
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 没有思考过 Embedding,不足以谈 AI
**摘要:** 本文深入探讨了人工智能中的Embedding技术,解释了它是如何将高维数据映射到低维向量空间以简化处理和捕获内在关系的。文章介绍了词向量、图像嵌入和用户嵌入等常见类型的Embedding,并强调了其在自然语言处理、计算机视觉和推荐系统中的应用。此外,还讨论了Embedding的数学基础,如向量空间和线性代数,并提到了Word2Vec、GloVe和BERT等经典模型。最后,文章涵盖了如何选择合适的Embedding技术,以及在资源有限时的考虑因素。通过理解Embedding,读者能够更好地掌握AI的精髓。
56 0
算法金 | 没有思考过 Embedding,不足以谈 AI
|
4月前
|
机器学习/深度学习 人工智能 算法
Stable Diffusion AI绘画
Stable Diffusion是人工智能领域的文本到图像生成模型,基于概率的连续扩散过程,学习数据潜在分布并生成新样本。模型使用Web UI进行交互,提供不同采样器如Euler和DPM++,后者常配以Karras算法。提示词对生成效果至关重要,可以利用GPT等生成提示词。用户还能调整参数如高清修复和批处理次数来影响生成的图像。此外,模型文件(ckpt/safetensors)和Lora微调模型需存放在正确目录以确保功能正常。
|
3月前
|
人工智能
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装
AI绘画,Stable Diffusion如何使用中文简体包,黑色页面切换参数http://127.0.0.1:7860/?__theme=dark 两个__,中文包下载和安装

热门文章

最新文章