最新版本 Stable Diffusion 开源 AI 绘画工具之图生图进阶篇

简介: 学好图生图,AI 即将取代打工人

🎈 图生图基本参数

  • 图生图功能主要包括六大类:图生图 / img2img涂鸦绘制 / sketch局部绘制 / inpaint局部绘制之涂鸦蒙版 / inpaint sketch局部绘制之上传蒙版 / inpaint upload批量处理 / batch
  • 而图生图的基本参数包括但不限于以下几种:
  • Resize mode:缩放模式,包括 拉伸/Just resize裁剪/crop and resize填充/resize and fill仅调整大小(潜空间放大/just resize (latent ipscale) ,缩放模式指的是当原图和要生成的图的宽和高不一致的时候,选择的缩放模式,一般选择裁剪,如果原图和生成图的宽高一致的时候,选择任意均可
  • Mask blur:蒙版模糊度,在 0-64 之间调节,就是将我们涂抹区域,从边缘向中间透明过渡。数值较小的时候,边缘越锐利,所以一个合适的值会让图片看起来更真实,数值一般默认即可
  • Masked content:蒙版蒙住的内容,包括 填充/fill原图/original潜在噪声/latent noise无潜在空间/latent nothing。这是一种预处理的步骤,其中填充是指使用蒙版边缘图像的颜色填充,不过颜色已经被高度模糊;原图则是同原图一样不改变任何细节;而潜在噪声则是使用噪点进行填充;而无潜在空间就是噪点值为0的状态,可以看到只有原图保留了原来的画面,所以一般选择原图即可
  • Mask transparency:蒙版的透明度,一般默认为0,即不透明,因为透明度越高,AI发挥的空间越小,基本上当透明度大于60,预处理就会失去作用
  • Mask mode:蒙版模式,包括 绘制蒙版内容/inpaint masked绘制非蒙版内容/inpaint not masked,这个很好理解,选择第一个就是只在蒙版区域重绘,另一种则相反,正常一般默认第一个即可
  • Inpaint area:绘制区域,包括 全图/whole picture仅蒙版/only masked。全图重绘是指在原图大小的基础下绘制蒙版区域,优点就是内容与原图融合的更好,缺点是不够细节;而蒙版重绘是只处理的时候将蒙版区域进行放大到原图的尺寸,画完之后再缩小放到原图的相应的位置,优点就是细节更好,缺点也是细节太多,与原图融合的不够好
  • Denoising strength:重绘强度,默认0.75,低强度就是基本不重绘,越高重绘越强,融合越不好,所以默认即可
  • 虽然图生图的参数比较多,但大多数的时候,我们选择默认即可,因为很多时候,只需要正确的选择而非过多的选择,个人也仅仅设置一下缩放模式、采样器、采样步骤和宽高进行出图

0.png


🎈 图生图(img2img)

  • 可以根据你上传的图片生成一张在原图基础上创作的新图片
  • 可以通过修改 Prompt 去自定义想要的结果图片,比如白色头发,红色眼睛等等

1.png


🎈 涂鸦绘制(Sketch)

  • 在原图基础上涂鸦后,进行二次创作,这是最基础的用法,当然也可以进行线稿的上色
  • 模型要选择好,如果想要生成二次元的,记得选择二次元模型,下图测试选择的是真人模型
  • 在进行线稿上色的时候,设置 缩放模式为裁剪 ▶ 采样器是 DPM++ 2M Karras ▶ 采样步骤设置的是30 ▶ 脚本 Script 中选择是图像迭代 Loopback ▶ 迭代次数设置成多少生成的图片就是多少张,一般设置2-4,防止显卡撑不住 ▶ 最终的重绘强度 Final denoising strenght 设置成了 0.88 ▶ 重绘曲线选择 Linear ▶ 迭代中反推提示词选择 DeepBooru,生成的最终图片效果还是很棒的

2.png


🎈 局部绘制(Inpaint)

  • 在局部绘制中,我们只需要将需要重绘的地方圈出来,然后加上 Prompt 提示词即可
  • 其中蒙版的黑色画笔并不是一种真的颜色,它是一片代表透明(不可见)属性的区域
  • 比如,将图片中的女生头发换成一头白发,只需要将图片上的头发区域涂上蒙版,然后在 Prompt 中输入 white hair 提示词即可
  • 当然这里只作为测试,如果想要更好的效果,自己设置更多的 Prompt 进行描述,除了头发,其他任何区域都可以进行重绘

3.png


🎈 涂鸦蒙版(Inpaint sketch)

  • 相比于局部重绘,多了一个蒙版透明度的配置,这是因为这里的蒙版是可以自定义颜色的
  • 在局部绘制中画笔只有黑色,而在涂鸦蒙版中蒙版的颜色会影响到原图,选择什么颜色最终重绘都会往这个颜色上靠
  • 蒙版透明度按照需要颜色的程度调节,最好不要超过40
  • 比如将动漫女生衣服换成红色的旗袍,只需要将衣服用红色的画笔涂抹,然后在 Prompt 中输入中国旗袍的英文解释即可,因为涂鸦蒙版的颜色是会影响到原图的,所以如果是用蓝色涂抹衣服,最终将会生成蓝色的旗袍

4.png


🎈 上传蒙版(Inpaint upload)

  • 跟涂鸦蒙版其实差不多,只是上传的蒙版需要借助其他工具如PS的处理,相比直接手涂肯定是更精确
  • 上传蒙版的蒙版在制作时可以设置部分透明的效果(不同程度的灰),还有边缘的羽化等等。此时需要注意具有相同效果的蒙版模糊的使用
    需要注意的一点是,在上传蒙版中,白色代表重绘,黑色代表不处理。也不用细分,如果弄错了,在蒙版模式中选择重绘非蒙版就可以
  • 为了方便测试,就将图片放到涂鸦蒙版中,用黑白两色把原图进行圈出,截图上传到上传蒙版中了,顺便加了 Prompt 的参数是天空、建筑物、人物等,可以看出 AI 只在白色区域进行了重绘,而圈出的黑色是没有重绘的
  • 还有最后一个批量处理功能,用的不多,也不用讲太细,只要输入图片所在目录路径、图片处理后保存的路径以及蒙版路劲即可批量处理

5.png

相关文章
|
3天前
|
人工智能 IDE Java
MarsCode AI 一款免费的代码辅助工具,值得一试
MarsCode是由字节跳动旗下公司推出的AI编程工具,旨在提升编码效率和质量。它既是一个云端集成开发环境(IDE),也支持作为VS Code和JetBrains等IDE的智能扩展,提供代码补全、生成、优化等功能,并支持多种编程语言。通过AI助手,MarsCode帮助开发者减少重复劳动,提高代码质量和可维护性,同时支持跨平台使用,为开发者带来便捷高效的编程体验。
|
8天前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
34 7
|
5天前
RTX3090可跑,360AI团队开源最新视频模型FancyVideo
【9月更文挑战第23天】近年来,人工智能技术的迅猛发展推动了视频生成领域的进步,但在合成动态、连贯且时长较长的视频方面仍面临挑战。为此,360AI团队提出了FancyVideo模型,通过跨帧文本指导实现更为连贯的视频生成。FancyVideo引入了跨帧文本指导模块(CTGM),包含时间信息注入器(TII)、时间相关性优化器(TAR)和时间特征增强器(TFB)三个组件,分别负责注入帧特定信息、优化相关性和增强时间一致性。这些机制使模型能生成具有连贯动作和丰富运动的视频,适用于动画制作和视频编辑等领域。然而,FancyVideo也存在计算复杂度高和细节真实感提升空间等局限。
16 3
|
25天前
|
机器学习/深度学习 人工智能 编解码
AI图像放大工具,图片放大无所不能
AI图像放大工具,如ESRGAN,对于提高由Stable Diffusion生成的AI图像质量至关重要。它们被广泛使用,以至于许多Stable Diffusion的图形用户界面(GUI)都内置了支持。
AI图像放大工具,图片放大无所不能
|
14天前
|
消息中间件 人工智能 运维
|
21天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
【智能助手体验】分享一款超好用的AI工具:Kimi
Kimi是一款由月之暗面科技有限公司开发的AI助手,具备强大的自然语言理解和文件内容解析能力,支持多种文件格式,并能结合互联网搜索提供全面答案。无论是在工作中的数据分析还是日常生活中的信息查询,Kimi都能给出满意的结果,展现出巨大的应用潜力。
|
1天前
|
人工智能 自然语言处理 Linux
Llama 3.2:开源可定制视觉模型,引领边缘AI革命
Llama 3.2 系列 11B 和 90B 视觉LLM,支持图像理解,例如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
|
3天前
|
机器学习/深度学习 存储 人工智能
AI与未来医疗:技术的飞跃与挑战
在当今科技迅速发展的时代,人工智能(AI)正以前所未有的速度渗透到各行各业。特别是在医疗领域,AI的潜力和应用前景令人瞩目。本文将探讨AI在未来医疗中的角色,分析其带来的变革与挑战,并展望未来的发展方向。

热门文章

最新文章