AIGC背后的技术分析 | 图像风格迁移

简介: 本文为实战篇,介绍图像风格迁移

640.jpg


# 1、图像风格迁移



VGG模型是由Simonyan等人于2014年提出的图像分类模型,这一模型采用了简单粗暴的堆砌3×3卷积层的方式构建模型,并花费了大量的时间逐层训练,最终斩获了2014年ImageNet图像分类比赛的亚军。这一模型的优点是结构简单,容易理解,便于利用到其他任务当中。

VGG-19网络的卷积部分由5个卷积块构成,每个卷积块中有多个卷积(convolution)层,结尾处有一个池化(pooling)层,如图1所示。

640.png


■ 图1VGG-19的网络结构

卷积层中的不同卷积核会被特定的图像特征激活,图2展示了不同卷积层内卷积核的可视化(通过梯度上升得到)。可以看到,低层卷积核寻找的特征较为简单,而高层卷积核寻找的特征比较复杂。

640.png


■ 图2VGG网络中部分卷积层内卷积核的可视化


# 2、图像风格迁移介绍



图像风格迁移是指将一张风格图Is的风格与另一张内容图Ic的内容相结合并生成新的图像。Gatys等人于2016年提出了一种简单而有效的方法,利用预训练的VGG网络提取图像特征,并基于图像特征组合出了两种特征度量,一种用于表示图像的内容,另一种用于表示图像的风格。他们将这两种特征度量加权组合,通过最优化的方式生成新的图像,使新的图像同时具有一幅图像的风格和另一幅图像的内容。

图3对风格迁移的内部过程进行了可视化。上面的一行中,作者将VGG网络不同层的输出构建风格表示,再反过来进行可视化,得到重构的风格图片;下面的一行中,作者将VGG网络不同层的输出构建内容表示,再反过来进行可视化,得到重构的内容图片。可以看到,低层卷积层提取的风格特征较细节,提取的内容特征较详细;高层卷积层提取的风格特征较整体,提取的内容特征较概括。

640.png


■ 图3风格迁移中使用的风格数学表示和内容数学表示

3、内容损失函数

1●内容损失函数的定义

内容损失函数用于衡量两幅图像之间的内容差异大小,其定义如下。

640.png


其中,Xl和Yl分别是两幅图片由VGG网络某一卷积层提取的特征图(feature map),l表示卷积层的下标,i和j表示矩阵中行与列的下标。可见两幅图像的内容损失函数是由特征图对位求差得到的。低层卷积特征图对图片的描述较为具体,高层卷积特征图对图片的描述较为概括。Gatys等人选择了第4个卷积块的第2层(conv4_2)用于计算内容损失,因为我们希望合成的图片的内容与内容图大体相近,但不是一笔一画都一模一样。

2●内容损失模块的实现

模块在初始化时需要将内容图片的特征图传入,通过detach()方法告诉AutoGrad优化时不要变更其中的内容。forward()方法实现上面的公式即可。

class ContentLoss(nn, Module) :
def _init__(self, target) :
super(ContentLoss, self)._ init__()self. target = target. detach( )
def forward( self,input) :
self.loss = torch.sum((input - self.target) *x 2) / 2.0
return input

4、风格损失函数

1●风格损失函数的定义

风格损失函数用于衡量两幅图像之间的风格差异大小。首先需要通过计算特征图的Gram矩阵得到图像风格的数学表示。给定VGG在一幅图像中提取的特征图Xl,与之对应的Gram矩阵Gl定义如下。

640.png


Gram矩阵本质上是特征的协方差矩阵(只是没有减去均值),表示的是特征与特征(卷积核与卷积核)的相关性。

640.png


设由以上方式获得Xl和Yl对应的Gram矩阵Gl和Hl,风格损失函数定义如下。

640.png


其中,Nl和Ml分别为特征图的通道数与边长,ωl为权重。Gatys等选择了conv1_1,conv2_1, conv3_1, conv4_1, conv5_1用于计算风格损失。

2●计算Gram矩阵函数的实现

因为PyTorch传入数据必须以批的形式,传入的input的大小为[batch_size, channels, height, width]。计算Gram矩阵时,先用view方法改变张量的形状,然后再将它与它自己转置进行点积即可。

def gram matrix( input) :
a,b,c, d = input.size( )
features = input.view(a x b,c x d)
G = torch.mm( features, features.t()
return G

3●风格损失模块的实现

模块在初始化时需要将风格图片的特征图传入并计算其Gram矩阵,通过detach()方法告诉AutoGrad优化时不要变更其中的内容。forward()方法实现上面的公式即可。

class StyleLoss(nn. Module) :
def __init__(self, target feature) :
super(StyleLoss,self).  init ()self.target = gram matrix(target feature) . detach( )
def forward( self,input) :a, b,c,d = input.size( )G = gram matrix( input)self.loss = torch.sum((G- self,target) x* 2) / (4.0 * b x b * c x d)return input
目录
相关文章
|
3天前
|
人工智能 编解码 算法
使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理
在本教程中,您将学习在阿里云交互式建模平台PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化和主体变化等功能。让我们一同开启这场旅程,为您的图像编辑添上无限可能性的翅膀吧。
|
8天前
|
人工智能 测试技术 API
【AIGC】LangChain Agent(代理)技术分析与实践
【5月更文挑战第12天】 LangChain代理是利用大语言模型和推理引擎执行一系列操作以完成任务的工具,适用于从简单响应到复杂交互的各种场景。它能整合多种服务,如Google搜索、Wikipedia和LLM。代理通过选择合适的工具按顺序执行任务,不同于链的固定路径。代理的优势在于可以根据上下文动态选择工具和执行策略。适用场景包括网络搜索、嵌入式搜索和API集成。代理由工具组成,每个工具负责单一任务,如Web搜索或数据库查询。工具包则包含预定义的工具集合。创建代理需要定义工具、初始化执行器和设置提示词。LangChain提供了一个从简单到复杂的AI解决方案框架。
146 3
|
8天前
|
机器学习/深度学习 人工智能 NoSQL
【AIGC】深入浅出理解检索增强技术(RAG)
【5月更文挑战第10天】本文介绍了检索增强生成(RAG)技术,这是一种将AI模型与内部数据结合,提升处理和理解能力的方法。通过实时从大型文档库检索信息,扩展预训练语言模型的知识。文章通过示例说明了当模型需要回答未公开来源的内容时,RAG如何通过添加上下文信息来增强模型的回答能力。讨论了实际应用中令牌限制和文本分块的问题,以及使用文本嵌入技术解决相关性匹配的挑战。最后,概述了实现RAG的步骤,并预告后续将分享构建检索增强服务的详情。
110 3
|
8天前
|
存储 人工智能 API
【AIGC】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序
【5月更文挑战第7天】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序实践
109 1
|
8天前
|
安全 算法 API
【AIGC】人脸验证服务简介及实践案例分析
【5月更文挑战第3天】手把手教你如何基于pgVector和LangChain构建检索增强服务
48 11
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
【活动】AIGC 技术的发展现状与未来趋势
AIGC技术现正快速发展,涉及文本、图像、音频和视频生成。GPT-3等模型已能生成连贯文本,GANs创造高质量图像,WaveNet合成逼真音频。尽管面临质量控制、原创性、可解释性和安全性的挑战,未来趋势将聚焦更高生成质量、多模态内容、个性化定制、增强可解释性和透明度,以及关注安全性和伦理问题。AIGC将在多领域创造更多可能性。
183 3
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
【AIGC】文档智能助手技术解决方案报告
【4月更文挑战第14天】智能文档处理助手技术解决方案报告整理输出
182 0
|
8天前
|
人工智能 搜索推荐 UED
如何评价AIGC技术的社会需求和市场环境?
【4月更文挑战第30天】如何评价AIGC技术的社会需求和市场环境?
136 0
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术是什么?
【4月更文挑战第30天】AIGC技术是什么?
145 0
|
8天前
|
人工智能 搜索推荐
如何利用AIGC技术实现个性化定制的绘画作品?
【4月更文挑战第30天】如何利用AIGC技术实现个性化定制的绘画作品?
84 1