AIGC背后的技术分析 | 图像风格迁移

2023-05-25 314

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文为实战篇，介绍图像风格迁移

# 1、图像风格迁移

VGG模型是由Simonyan等人于2014年提出的图像分类模型，这一模型采用了简单粗暴的堆砌3×3卷积层的方式构建模型，并花费了大量的时间逐层训练，最终斩获了2014年ImageNet图像分类比赛的亚军。这一模型的优点是结构简单，容易理解，便于利用到其他任务当中。

VGG-19网络的卷积部分由5个卷积块构成，每个卷积块中有多个卷积（convolution）层，结尾处有一个池化（pooling）层，如图1所示。

■ 图1VGG-19的网络结构

卷积层中的不同卷积核会被特定的图像特征激活，图2展示了不同卷积层内卷积核的可视化（通过梯度上升得到）。可以看到，低层卷积核寻找的特征较为简单，而高层卷积核寻找的特征比较复杂。

■ 图2VGG网络中部分卷积层内卷积核的可视化

# 2、图像风格迁移介绍

图像风格迁移是指将一张风格图Is的风格与另一张内容图Ic的内容相结合并生成新的图像。Gatys等人于2016年提出了一种简单而有效的方法，利用预训练的VGG网络提取图像特征，并基于图像特征组合出了两种特征度量，一种用于表示图像的内容，另一种用于表示图像的风格。他们将这两种特征度量加权组合，通过最优化的方式生成新的图像，使新的图像同时具有一幅图像的风格和另一幅图像的内容。

图3对风格迁移的内部过程进行了可视化。上面的一行中，作者将VGG网络不同层的输出构建风格表示，再反过来进行可视化，得到重构的风格图片；下面的一行中，作者将VGG网络不同层的输出构建内容表示，再反过来进行可视化，得到重构的内容图片。可以看到，低层卷积层提取的风格特征较细节，提取的内容特征较详细；高层卷积层提取的风格特征较整体，提取的内容特征较概括。

■ 图3风格迁移中使用的风格数学表示和内容数学表示

3、内容损失函数

1●内容损失函数的定义

内容损失函数用于衡量两幅图像之间的内容差异大小，其定义如下。

其中，Xl和Yl分别是两幅图片由VGG网络某一卷积层提取的特征图（feature map），l表示卷积层的下标，i和j表示矩阵中行与列的下标。可见两幅图像的内容损失函数是由特征图对位求差得到的。低层卷积特征图对图片的描述较为具体，高层卷积特征图对图片的描述较为概括。Gatys等人选择了第4个卷积块的第2层（conv4_2）用于计算内容损失，因为我们希望合成的图片的内容与内容图大体相近，但不是一笔一画都一模一样。

2●内容损失模块的实现

模块在初始化时需要将内容图片的特征图传入，通过detach（）方法告诉AutoGrad优化时不要变更其中的内容。forward（）方法实现上面的公式即可。

class ContentLoss(nn, Module) :
def _init__(self, target) :
super(ContentLoss, self)._ init__()self. target = target. detach( )
def forward( self,input) :
self.loss = torch.sum((input - self.target) *x 2) / 2.0
return input

4、风格损失函数

1●风格损失函数的定义

风格损失函数用于衡量两幅图像之间的风格差异大小。首先需要通过计算特征图的Gram矩阵得到图像风格的数学表示。给定VGG在一幅图像中提取的特征图Xl，与之对应的Gram矩阵Gl定义如下。

Gram矩阵本质上是特征的协方差矩阵（只是没有减去均值），表示的是特征与特征（卷积核与卷积核）的相关性。

设由以上方式获得Xl和Yl对应的Gram矩阵Gl和Hl，风格损失函数定义如下。

其中，Nl和Ml分别为特征图的通道数与边长，ωl为权重。Gatys等选择了conv1_1,conv2_1, conv3_1, conv4_1, conv5_1用于计算风格损失。

2●计算Gram矩阵函数的实现

因为PyTorch传入数据必须以批的形式，传入的input的大小为［batch_size, channels, height, width］。计算Gram矩阵时，先用view方法改变张量的形状，然后再将它与它自己转置进行点积即可。

def gram matrix( input) :
a,b,c, d = input.size( )
features = input.view(a x b,c x d)
G = torch.mm( features, features.t()
return G

3●风格损失模块的实现

模块在初始化时需要将风格图片的特征图传入并计算其Gram矩阵，通过detach()方法告诉AutoGrad优化时不要变更其中的内容。forward()方法实现上面的公式即可。

class StyleLoss(nn. Module) :
def __init__(self, target feature) :
super(StyleLoss,self).  init ()self.target = gram matrix(target feature) . detach( )
def forward( self,input) :a, b,c,d = input.size( )G = gram matrix( input)self.loss = torch.sum((G- self,target) x* 2) / (4.0 * b x b * c x d)return input

AIGC背后的技术分析 | 图像风格迁移

3、内容损失函数

1●内容损失函数的定义

2●内容损失模块的实现

4、风格损失函数

1●风格损失函数的定义

2●计算Gram矩阵函数的实现

3●风格损失模块的实现

热门文章

最新文章

相关课程

相关电子书

相关实验场景