AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用

简介: AI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用


通过「添加额外条件」来控制扩散模型,斯坦福大学最新的一项研究让图生图效果更上了一层楼。

随着大型文本 - 图像模型的出现,生成一幅吸引人的图像已经变得非常简单,用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后,我们不免又会产生这样几个问题:基于 prompt 生成的图像能够满足我们的要求吗?我们应该构建怎样的架构来处理用户提出的各种要求?在特定任务中,大型模型是否还能保持从数十亿张图像中获得的优势和能力?

为了回答这些问题,来自斯坦福的研究者对各种图像处理应用进行了大量调查,并得出以下三个发现:

首先,在特定领域中可用数据实际比训练通用模型的数据要少,这主要表现在,例如在特定问题上(例如姿态理解等)最大的数据集通常低于 100k,比大规模、多模态文本图像数据集 LAION 5B 少了 5 × 10^4 数量级。这就要求神经网络鲁棒性要好,以避免模型过度拟合,并在针对特定问题时具有良好的泛化性。

其次,当使用数据驱动处理图像任务时,大型计算集群并不总是可用的。这时快速训练方法就变得很重要,这种方法在可接受的时间和内存空间内能够针对特定任务对大模型进行优化。更进一步,在后续的处理过程中可能还需要微调、迁移学习等操作。

最后,在图像处理过程中遇到的各种问题会有不同形式的定义方式。在解决这些问题时,虽然图像扩散算法可以以「程序化(procedural)」方式进行调节,例如,约束去噪过程、编辑多头注意力激活等,但这些手工制定的规则基本上是由人类指令规定的,考虑到一些特定的任务,如深度 - 图像、姿态 - 人等,这些问题本质上需要将原始输入解释为对象级或场景级的理解,这使得手工制作的程序方法不太可行。因此,想要在多个任务中给出解决方案,端到端学习是必不可少的。

基于上述发现,本文提出了一种端到端的神经网络架构 ControlNet,该架构可以通过添加额外条件来控制扩散模型(如 Stable Diffusion),从而改善图生图效果,并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

论文地址:https://arxiv.org/pdf/2302.05543.pdf项目地址:https://github.com/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢?

Canny 边缘检测:通过从原始图像中提取线稿,能够生成同样构图的图像。

深度检测:通过提取原始图像中的深度信息,可以生成具有同样深度结构的图。

带有语义分割的 ControlNet:

使用基于学习的深度霍夫变换从 Places2 中检测直线,然后使用 BLIP 生成字幕。

HED 边缘检测图示。

人体姿态识别图示。

方法介绍

ControlNet 是一种神经网络架构,它可以增强具有任务特定(task-specific)条件的预训练图像扩散模型。我们先来看 ControlNet 的基本结构。

ControlNet 操纵神经网络块的输入条件,从而进一步控制整个神经网络的整体行为。这里「网络块」指的是一组神经层,它们被放在一起作为一个构建神经网络的常用单元,例如 resnet 块、多头注意力块、Transformer 块。

以 2D 特征为例,给定一个特征图 x ϵ R^h×w×c,其中 {h, w, c} 分别为高度、宽度和通道数。具有一组参数 Θ 的神经网络块 F (・; Θ) 将 x 转换为另一个特征图 y,如下公式 (1) 所示。

这一过程如下图 2-(a) 所示。

神经网络块由一种被称为「零卷积」的独特卷积层连接,即权重和偏置都零初始化的 1×1 卷积层。研究者将零卷积运算表示为 Z (・;・) ,并使用两个参数实例 {Θ_z1, Θ_z2} 组成 ControlNet 结构,如下公式 (2) 所示。

其中 y_c 成为该神经网络块的输出,如下图 2-(b) 所示。

图像扩散模型中的 ControlNet

研究者以 Stable Diffusion 为例,介绍了如何使用 ControlNet 控制具有任务特定条件的大型扩散模型。Stable Diffusion 是一种在数十亿张图像上训练的大型文本到图像扩散模型,本质上是一个由编码器、中间块和残差连接解码器组成的 U-net。

如下图 3 所示,研究者使用 ControlNet 来控制 U-net 的每一层。需要注意,这里连接 ControlNet 的方式在计算上是高效的:由于原始权重被锁定,原始编码器上的梯度计算不需要进行训练。并且又由于原始模型上少了一半梯度计算,可以加快训练速度并节省 GPU 内存。使用 ControlNet 训练一个 Stable Diffusion 模型只需要在每次训练迭代中增加大约 23% 的 GPU 内存和 34% 的时间(在单个 Nvidia A100 PCIE 40G 上测试)。

具体地,研究者使用 ControlNet 创建了 12 个编码块和 1 个 Stable Diffusion 中间块的可训练副本。这 12 个编码块有 4 种分辨率,分别为 64×64、32×32、16×16 和 8×8,每种分辨率有 3 个块。输出被添加到 U-net 的 12 个残差连接和 1 个中间块。由于 Stable Diffusion 是典型的 U-net 结构,因此这种 ControlNet 架构很可能可以用于其他扩散模型。

训练及提升训练

给定图像 z_0,扩散算法渐进地向图像添加噪声并产生噪声图像 z_t,t 是添加噪声的次数。当 t 足够大时,图像近似于纯噪声。给定一组包括时间步长 t、文本 prompts c_t 的条件以及任务特定条件 c_f,图像扩散算法学习网络 ϵ_θ 以预测添加到噪声图像 z_t 的噪声,如下公式 (10) 所示。

在训练过程中,研究者随机将 50% 的文本 prompts c_t 替换为空字符串,这有利于 ControlNet 从输入条件 map 中识别语义内容的能力。

此外,研究者还讨论了几种改进 ControlNets 训练的策略,特别是在计算设备非常有限(如笔记本电脑)或非常强大(如具有可用大规模 GPU 的计算集群)的极端情况下。

更多技术细节请参阅原论文。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
这段内容介绍了一个使用Stable Diffusion与LoRA技术创建定制化二次元图像生成模型的全流程。首先,通过安装必要的软件包如Data-Juicer和DiffSynth-Studio准备开发环境。接着,下载并处理二次元图像数据集,利用Data-Juicer进行数据清洗和筛选,确保图像质量和尺寸的一致性。随后,训练一个针对二次元风格优化的LoRA模型,并调整参数以控制模型复杂度。完成训练后,加载模型并通过精心设计的提示词(prompt)生成一系列高质量的二次元图像,展示模型对细节和艺术风格的理解与再现能力。整个过程展示了从数据准备到模型训练及结果生成的完整步骤,为定制化图像提供了方向。
|
1月前
|
人工智能 前端开发 JavaScript
拿下奇怪的前端报错(一):报错信息是一个看不懂的数字数组Buffer(475) [Uint8Array],让AI大模型帮忙解析
本文介绍了前端开发中遇到的奇怪报错问题,特别是当错误信息不明确时的处理方法。作者分享了自己通过还原代码、试错等方式解决问题的经验,并以一个Vue3+TypeScript项目的构建失败为例,详细解析了如何从错误信息中定位问题,最终通过解读错误信息中的ASCII码找到了具体的错误文件。文章强调了基础知识的重要性,并鼓励读者遇到类似问题时不要慌张,耐心分析。
|
1月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
3月前
|
人工智能 运维 自然语言处理
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
【8月更文挑战第10天】从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
|
2月前
|
人工智能 运维 安全
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
分享了关于 AI 原生化趋势下服务器操作系统进化的思考,以及浪潮信息在龙蜥社区开源贡献的思路、成果与未来技术发展规划。
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
|
3月前
|
人工智能 自然语言处理 物联网
Datawhale从零入门AI文生图原理&实践-Task1
Datawhale从零入门AI文生图原理&实践-Task1
211 11
|
3月前
|
人工智能 搜索推荐 API
langchain 入门指南 - 让 AI 从互联网获取信息
langchain 入门指南 - 让 AI 从互联网获取信息
84 1
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
这段内容介绍了一个使用LoRA技术定制Stable Diffusion模型的工作流程。首先定义了提示词的结构,接着概述了LoRA作为轻量级微调方法的角色。ComfyUI作为一个图形化工具,简化了AI模型的配置与操作。示例脚本展示了如何通过Data-Juicer和DiffSynth-Studio进行数据准备、模型训练,并最终生成特定风格的二次元图像。通过不同的种子和提示词,生成了一系列具有一致风格但内容各异的高质量二次元角色图像。
|
3月前
|
人工智能 弹性计算 负载均衡
就AI 基础设施的演进与挑战问题之AttachInstances操作的授权信息的问题如何解决
就AI 基础设施的演进与挑战问题之AttachInstances操作的授权信息的问题如何解决

热门文章

最新文章

下一篇
无影云桌面