最近被layerdiffusion分层生成透明图像技术刷屏了!

简介: 最近被layerdiffusion分层生成透明图像技术刷屏了!

最近一周,在各大社交平台都能刷到众多互联网科技博主发文分享这样一款透明图像生成工具LayerDiffusion。


LayerDiffusionControlNet 作者提出的一种新技术,它允许大规模预训练的潜在扩散模型(Latent Diffusion Model)生成透明图像。


LayerDiffusion:https://github.com/layerdiffusion/LayerDiffusion


当然,这不仅仅是我们表面上看到了抠图这么简单,它的核心在于生成


基于LayerDiffusion也衍生出了两款比较火的插件:Comfyui LayerDiffusionsd-forge-layerdiffusion


这两款插件前两天还只是发布出来还不能真正开始使用,今天看最新消息称已经可以正式使用了。


Comfyui LayerDiffusion


ComfyUI-layerdiffusion 是 Layer Diffusion 的一个自定义实现,专门用于生成和处理前景、背景图像及其混合效果,目前只支持SDXL模型。


ComfyUI-layerdiffusion:https://github.com/huchenlei/ComfyUI-layerdiffusion


具体使用安装需要通过项目的下载或克隆,然后拷贝到ComfyUI的custom_nodes文件夹,并运行 pip install -r requirements.txt 安装Python相关依赖。


主要功能:


  • 生成前景:提供了生成带有透明度(RGB+alpha)的前景图像的流程。
  • 混合前景/背景:支持将给定的前景(FG)和背景(BG)图像混合。
  • 提取前景/背景:能够从混合图像中提取前景或背景,尽管该流程可能不如其他对象移除流程高效。


sd-forge-layerdiffusion


sd-forge-layerdiffusion 是LayerDiffusion作者自己开发的一个基于forge ui的项目,目前功能正在更新迭代中,该项目旨在为Stable Diffusion WebUI(通过Forge)提供生成透明图像和图层的能力,目前已实现基本的文生图功能,但透明的img2img(图生图)还未完成。


sd-forge-layerdiffusion:https://github.com/layerdiffusion/sd-forge-layerdiffusion


和普通版本的WebUI一样,在扩展处安装layer


其登录界面后所有模型都是自动下载的,适用于SDXL模型。能处理透明玻璃、半透明发光效果等,比简单的背景移除方法更为高级。


用于将SDXL转换为透明图像生成器,以及处理前景、背景和混合组合的图层生成模型等。

注意事项: 目前仅支持 SDXL 模型。


相关模型说明:模型说明:


  • layer_xl_transparent_attn.safetensors 一个LoRA,可将SDXL变成一个透明图像生成器。
  • layer_xl_transparent_conv.safetensors 将SDXL变成透明图像生成器的替代模型。
  • layer_xl_fg2ble.safetensors 该模型包括偏移量,将SDXL变成一个层生成模型,该模型基于前景,并生成融合的组合。
  • layer_xl_fgble2bg.safetensors 该模型包括偏移量,将SDXL变成一个层生成模型,该模型基于前景和融合的组合,并生成背景。
  • layer_xl_bg2ble.safetensors 该模型包括偏移量,将SDXL变成一个层生成模型,该模型基于背景,并生成融合的组合。
  • layer_xl_bgble2fg.safetensors 该模型包括偏移量,将SDXL变成一个层生成模型,该模型基于背景和融合的组合,并生成前景。
  • vae_transparent_encoder.safetensors 这是一个图像编码器,用于从像素空间提取潜在偏移量。该偏移量可以添加到潜在图像中,以帮助透明度的扩散。
  • vae_transparent_decoder.safetensors 这是一个图像解码器,输入为SD VAE输出和潜在图像,输出为真实的PNG图像。
相关文章
|
6天前
全息近眼显示技术如何实现三维图像再现?
【6月更文挑战第26天】全息近眼显示技术如何实现三维图像再现?
14 4
|
2月前
|
编解码 人工智能
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
【5月更文挑战第23天】研究人员提出Lumina-T2X框架,统一生成和编辑图像、视频、音频及3D内容。使用Flow-based Large Diffusion Transformer (Flag-DiT)模型,实现多模态生成,支持内容编辑。尽管面临训练资源需求高、生成质量不及人类创作等问题,该框架在娱乐、广告等领域有广泛应用潜力。[论文链接](https://arxiv.org/pdf/2405.05945)
47 1
|
2月前
|
机器学习/深度学习 人工智能 算法
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。 言及背景音人声分离技术,就不能不提Spleeter,它是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。使用的是一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter泛用性高的原因之一,关于Spleeter,请移步:[人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)](https://v3u.cn/a_id_305),这里
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
|
11月前
|
传感器 机器学习/深度学习 算法
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
|
12月前
|
编解码 监控 算法
转:图像拼接算法在电脑屏幕监控软件中的优势与应用场景
图像拼接算法在电脑屏幕监控软件中有着广泛的优势和应用场景。这种算法可以将多个部分的图像合并成一个整体,从而提供更大范围的监控视野和更全面的信息。
94 0
|
数据可视化 PyTorch 算法框架/工具
AIGC背后的技术分析 | 图像风格迁移
本文为实战篇,介绍图像风格迁移
338 0
AIGC背后的技术分析 | 图像风格迁移
|
机器学习/深度学习 编解码 vr&ar
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
136 0
|
机器学习/深度学习 数据可视化 计算机视觉
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
116 0
|
机器学习/深度学习 编解码 定位技术
风格迁移 图像合成 图像重构 更换姿态和图像背景(使用交叉注意控制进行提示到图像编辑)GAN网络增强版
风格迁移 图像合成 图像重构 更换姿态和图像背景(使用交叉注意控制进行提示到图像编辑)GAN网络增强版
124 0
|
机器学习/深度学习 编解码 人工智能
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像