TensorFlow2实现条件批归一化(Conditional Batch Normalization)

简介: 在生成对抗网络中使用 BN 会导致生成图片在一定程度上出现同质化的缺点。利用条件批归一化可以解决此问题,本文讲解了条件批归一化,并使用TensorFlow2进行实现。

条件批归一化(Conditional Batch Normalization)

批归一化 (Batch Normalization, BN) 是深度学习中常用的网络训练技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散”的问题,从而使得训练深层网络模型更加容易和稳定,所以目前 BN 已经成为几乎所有卷积神经网络的标配技巧了,简单回顾下 BN 的方程式:  

屏幕截图 2021-12-23 145452.png

其中,均值 µ 和标准差 σ 是在 (N, H, W) 维度上进行计算的,每个规范化层只有一个仿射变换参数对 γ 和 β,它们是在训练时网络自己学习得到的。

但是在生成对抗网络 (Generative Adversarial Networks, GAN) 中使用 BN 会导致生成图片在一定程度上出现同质化的缺点。例如,在 CIFAR10 数据集中,有10类图片:6种是动物(分别为:鸟,猫,鹿,狗,青蛙和马),4种是交通工具(分别是:飞机,汽车,轮船和卡车)。显然,不同类别的图片在外观上看起来截然不同——交通往往具有坚硬而笔直的边缘,而动物倾向于具有弯曲的边缘和较柔和的纹理。

风格迁移中我们已经了解了,激活的统计数据决定了图像样式。因此,混合批统计信息可以创建看上去有点像动物同时也有点像交通工具(例如,汽车形状的猫)的图像。这是因为批归一化在由不同类别图片组成的整个批次中仅使用一个 γ 和一个 β。如果每种类别都有一个 γ 和一个 β,则该问题得以解决,而这正是条件批规范化的意义所在。每个类别有一个 γ 和一个 β,因此CIFAR10中的10个类别每层有10个 γ 和10个 β

TensorFlow实现条件批归一化

现在,我们可以构造条件批处理规范化所需的变量,如下所示:

1. 形状为 (10, C) 的 βγ,其中 C 是激活通道数。

2. (1, 1, 1, C) 形状的游动均值和方差。在训练中,均值和方差是从小批次计算得出的。在推论过程中,我们使用训练中累积的移动均值。它们的形状使算术运算可以广播到 N,H 和 W 维度。

利用自定义层实现条件批归一化,首先创建所需变量:

classConditionBatchNorm(Layer):
defbuild(self, input_shape):
self.input_size=input_shapen, h, w, c=input_shapeself.gamma=self.add_weight(shape=[self.n_class, c],  
initializer='zeros', trainable=True, name='gamma')
self.moving_mean=self.add_weight(shape=[1, 1, 1, c],
initializer='zeros', trainable=False, name='moving_mean')
self.moving_var=self.add_weight(shape=[1, 1, 1, c],  
initializer='zeros', trainable=False, name='moving_var')

当运行条件批归一化时,为标签检索正确的 βγ。这是使用 tf.gather(self.beta, labels) 完成的,它在概念上等效于 beta = self.beta[labels],如下所示:

defcall(self, x, labels, trainable=False):
beta=tf.gather(self.beta, labels)
beta=tf.expand_dims(beta, 1)
gamma=tf.gather(self.gamma, labels)
gamma=tf.expand_dims(gamma, 1)
iftraining:
mean, var=tf.nn.moments(x, axes=(0,1,2), keepdims=True)
self.moving_mean.assign(self.decay*self.moving_mean+ (1-self.decay)*mean)
self.moving_var.assign(self.decay*self.moving_var+ (1-self.decay)*var)
output=tf.nn.batch_normalization(x, mean, var, beta, gamma, self.eps)
else:
output=tf.nn.batch_normalization(x, self.moving_mean, self.moving_var, beta, gamma, self.eps)
returnoutput

在残差块中应用条件批归一化

条件批归一化的使用方式与批归一化相同,作为示例,现在我们将条件批归一化添加到残差块中:

classResBlock(Layer):
defbuild(self, input_shape):
input_filter=input_shape[-1]
self.conv_1=Conv2D(self.filters, 3, padding='same', name='conv2d_1')
self.conv_2=Conv2D(self.filters, 3, padding='same', name='conv2d_2')
self.cbn_1=ConditionBatchNorm(self.n_class)
self.cbn_2=ConditionBatchNorm(self.n_class)
self.learned_skip=Falseifself.filters!=input_filter:
self.learned_skip=Trueself.conv_3=Conv2D(self.filters, 1, padding='same', name='conv2d_3')
self.cbn_3=ConditionBatchNorm(self.n_class)

以下是使用条件批归一化残差块的前向计算代码:

defcall(self, input_tensor, labels):
x=self.conv_1(input_tensor)
x=self.cbn_1(x, labels)
x=tf.nn.leaky_relu(x, 0.2)
x=self.conv_2(x)
x=tf.cbn_2(x, labels)
x=tf.nn.leaky_relu(x, 0.2)
ifself.learned_skip:
skip=self.conv_3(input_tensor)
skip=self.cbn_3(skip, labels)
skip=tf.nn.leaky_relu(skip, 0.2)
else:
skip=input_tensoroutput=skip+xreturnoutput
相关文章
|
5月前
|
API 算法框架/工具
【Tensorflow+keras】使用keras API保存模型权重、plot画loss损失函数、保存训练loss值
使用keras API保存模型权重、plot画loss损失函数、保存训练loss值
42 0
|
8月前
|
机器学习/深度学习 并行计算 数据可视化
Batch Size 对神经网络训练的影响
Batch Size 对神经网络训练的影响
142 0
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
详解Batch Normalization并基于PyTorch实操(附代码)
详解Batch Normalization并基于PyTorch实操(附代码)
192 2
|
机器学习/深度学习 人工智能 资源调度
深度学习入门基础CNN系列——批归一化(Batch Normalization)和丢弃法(dropout)
批归一化方法(Batch Normalization,BatchNorm)是由Ioffe和Szegedy于2015年提出的,已被广泛应用在深度学习中,其目的是对神经网络中间层的输出进行标准化处理,使得中间层的输出更加稳定。丢弃法(Dropout)是深度学习中一种常用的抑制过拟合的方法,其做法是在神经网络学习过程中,随机删除一部分神经元。训练时,随机选出一部分神经元,将其输出设置为0,这些神经元将不对外传递信号。
625 1
深度学习入门基础CNN系列——批归一化(Batch Normalization)和丢弃法(dropout)
criterion = torch.nn.MSELoss() ;loss = criterion(y_pred.squeeze(), Y_train.squeeze()) 其中loss.item()的结果是指当前批次所有样本的mse总和还是平均值?
loss.item()的结果是当前批次所有样本的均方误差(MSE)值,而不是总和。这是因为torch.nn.MSELoss()默认返回的是每个样本的MSE值之和,并且在计算总体损失时通常会将其除以样本数量来得到平均损失。 在代码中,loss = criterion(y_pred.squeeze(), Y_train.squeeze())语句计算了y_pred和Y_train之间的MSE损失,然后通过调用item()方法获取了该批次训练样本的平均MSE损失。如果希望获取该批次训练样本的总MSE损失,可以使用loss.item() * batch_size来计算,其中batch_size是该批次
397 0
|
PyTorch 算法框架/工具
pytorch如何将多个tensor一维度张量,合并成一个张量
在 PyTorch 中,可以使用 torch.cat() 函数将多个张量沿着指定维度进行合并。下面是一个例子:
1681 0
|
机器学习/深度学习 算法 TensorFlow
神奇的Batch Normalization 仅训练BN层会发生什么
神奇的Batch Normalization 仅训练BN层会发生什么
255 0
神奇的Batch Normalization 仅训练BN层会发生什么
|
机器学习/深度学习 算法 计算机视觉
BN(Batch Normalization 批量归一化)
BN(Batch Normalization 批量归一化)
BN(Batch Normalization 批量归一化)
|
机器学习/深度学习 计算机视觉
Batch Normalization, 批标准化,神经网络shortcut 是什么,无脑用ReLU(CV领域). 无脑用3x3.
和普通的数据标准化类似, 是将分散的数据统一的一种做法, 也是优化神经网络的一种方法. 在之前 Normalization 的简介视频中我们一提到, 具有统一规格的数据, 能让机器学习更容易学习到数据之中的规律.
398 0