Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(七)(2)https://developer.aliyun.com/article/1482449
第十七章:自编码器、GANs 和扩散模型
自编码器是人工神经网络,能够学习输入数据的密集表示,称为潜在表示或编码,而无需任何监督(即,训练集未标记)。这些编码通常比输入数据的维度低得多,使得自编码器在降维方面非常有用(参见第八章),特别是用于可视化目的。自编码器还充当特征检测器,并且可以用于深度神经网络的无监督预训练(正如我们在第十一章中讨论的那样)。最后,一些自编码器是生成模型:它们能够随机生成看起来非常类似于训练数据的新数据。例如,您可以在人脸图片上训练一个自编码器,然后它将能够生成新的人脸。
生成对抗网络(GANs)也是能够生成数据的神经网络。事实上,它们可以生成如此逼真的人脸图片,以至于很难相信它们所代表的人并不存在。您可以通过访问https://thispersondoesnotexist.com来亲自判断,这是一个展示由名为StyleGAN的 GAN 架构生成的人脸的网站。您还可以查看https://thisrentaldoesnotexist.com来查看一些生成的 Airbnb 列表。GANs 现在被广泛用于超分辨率(增加图像的分辨率)、着色、强大的图像编辑(例如,用逼真的背景替换照片炸弹客)、将简单的草图转换为逼真的图像、预测视频中的下一帧、增强数据集(用于训练其他模型)、生成其他类型的数据(如文本、音频和时间序列)、识别其他模型的弱点以加强它们等等。
生成学习领域的一个较新的成员是扩散模型。在 2021 年,它们成功生成了比 GANs 更多样化和高质量的图像,同时训练也更容易。然而,扩散模型运行速度较慢。
自编码器、GANs 和扩散模型都是无监督的,它们都学习潜在表示,它们都可以用作生成模型,并且有许多类似的应用。然而,它们的工作方式非常不同:
- 自编码器简单地学习将输入复制到输出。这听起来可能是一个琐碎的任务,但正如你将看到的,以各种方式约束网络可能会使其变得相当困难。例如,您可以限制潜在表示的大小,或者您可以向输入添加噪声并训练网络以恢复原始输入。这些约束阻止了自编码器直接将输入轻松复制到输出,迫使其学习表示数据的有效方式。简而言之,编码是自编码器在某些约束下学习身份函数的副产品。
- GANs 由两个神经网络组成:一个生成器试图生成看起来类似于训练数据的数据,另一个鉴别器试图区分真实数据和假数据。这种架构在深度学习中非常独特,因为生成器和鉴别器在训练过程中相互竞争:生成器经常被比作试图制造逼真的假币的罪犯,而鉴别器则像是试图区分真假货币的警察调查员。对抗训练(训练竞争的神经网络)被广泛认为是 2010 年代最重要的创新之一。2016 年,Yann LeCun 甚至说这是“过去 10 年中机器学习中最有趣的想法”。
- 去噪扩散概率模型(DDPM)被训练用于从图像中去除一点噪音。如果你拿一张完全充满高斯噪音的图像,然后反复在该图像上运行扩散模型,一个高质量的图像将逐渐出现,类似于训练图像(但不完全相同)。
在本章中,我们将深入探讨自编码器的工作原理以及如何将其用于降维、特征提取、无监督预训练或生成模型。这将自然地引导我们到 GAN。我们将构建一个简单的 GAN 来生成假图像,但我们会看到训练通常相当困难。我们将讨论对抗训练中遇到的主要困难,以及一些解决这些困难的主要技术。最后,我们将构建和训练一个 DDPM,并用它生成图像。让我们从自编码器开始!
高效的数据表示
你觉得以下哪个数字序列最容易记住?
- 40, 27, 25, 36, 81, 57, 10, 73, 19, 68
- 50, 48, 46, 44, 42, 40, 38, 36, 34, 32, 30, 28, 26, 24, 22, 20, 18, 16, 14
乍一看,第一个序列似乎更容易,因为它要短得多。然而,如果你仔细看第二个序列,你会注意到它只是从 50 到 14 的偶数列表。一旦你注意到这个模式,第二个序列比第一个容易记忆得多,因为你只需要记住模式(即递减的偶数)和起始和结束数字(即 50 和 14)。请注意,如果你能快速轻松地记住非常长的序列,你就不会太在意第二个序列中的模式。你只需要把每个数字背下来,就这样。难以记忆长序列的事实使得识别模式变得有用,希望这解释清楚了为什么在训练期间对自编码器进行约束会促使其发现和利用数据中的模式。
记忆、感知和模式匹配之间的关系在 20 世纪 70 年代初由威廉·查斯和赫伯特·西蒙著名研究。他们观察到,专业的国际象棋选手能够在只看棋盘五秒钟的情况下记住游戏中所有棋子的位置,这是大多数人会觉得不可能的任务。然而,这只有在棋子被放置在现实位置(来自实际游戏)时才是这样,而不是当棋子被随机放置时。国际象棋专家的记忆力并不比你我好多少;他们只是更容易看到国际象棋的模式,这要归功于他们对游戏的经验。注意到模式有助于他们有效地存储信息。
就像这个记忆实验中的国际象棋选手一样,自编码器查看输入,将其转换为高效的潜在表示,然后输出与输入非常接近的内容(希望如此)。自编码器始终由两部分组成:一个编码器(或识别网络),将输入转换为潜在表示,然后是一个解码器(或生成网络),将内部表示转换为输出(参见图 17-1)。
图 17-1。国际象棋记忆实验(左)和简单的自编码器(右)
正如您所看到的,自编码器通常具有与多层感知器(MLP;参见第十章)相同的架构,只是输出层中的神经元数量必须等于输入数量。在这个例子中,有一个由两个神经元组成的隐藏层(编码器),以及一个由三个神经元组成的输出层(解码器)。输出通常被称为重构,因为自编码器试图重构输入。成本函数包含一个重构损失,当重构与输入不同时,惩罚模型。
因为内部表示的维度比输入数据低(是 2D 而不是 3D),所以自编码器被称为欠完备。欠完备自编码器不能简单地将其输入复制到编码中,但它必须找到一种输出其输入的方式。它被迫学习输入数据中最重要的特征(并丢弃不重要的特征)。
让我们看看如何实现一个非常简单的欠完备自编码器进行降维。
使用欠完备线性自编码器执行 PCA
如果自编码器仅使用线性激活函数,并且成本函数是均方误差(MSE),那么它最终会执行主成分分析(PCA;参见第八章)。
以下代码构建了一个简单的线性自编码器,用于在 3D 数据集上执行 PCA,将其投影到 2D:
import tensorflow as tf encoder = tf.keras.Sequential([tf.keras.layers.Dense(2)]) decoder = tf.keras.Sequential([tf.keras.layers.Dense(3)]) autoencoder = tf.keras.Sequential([encoder, decoder]) optimizer = tf.keras.optimizers.SGD(learning_rate=0.5) autoencoder.compile(loss="mse", optimizer=optimizer)
这段代码与我们在过去章节中构建的所有 MLP 并没有太大的不同,但有几点需要注意:
- 我们将自编码器组织成两个子组件:编码器和解码器。两者都是常规的
Sequential
模型,每个都有一个Dense
层,自编码器是一个包含编码器后面是解码器的Sequential
模型(请记住,模型可以作为另一个模型中的一层使用)。 - 自编码器的输出数量等于输入数量(即 3)。
- 为了执行 PCA,我们不使用任何激活函数(即所有神经元都是线性的),成本函数是 MSE。这是因为 PCA 是一种线性变换。很快我们将看到更复杂和非线性的自编码器。
现在让我们在与我们在第八章中使用的相同简单生成的 3D 数据集上训练模型,并使用它对该数据集进行编码(即将其投影到 2D):
X_train = [...] # generate a 3D dataset, like in Chapter 8 history = autoencoder.fit(X_train, X_train, epochs=500, verbose=False) codings = encoder.predict(X_train)
请注意,X_train
既用作输入又用作目标。图 17-2 显示了原始 3D 数据集(左侧)和自编码器的隐藏层的输出(即编码层,右侧)。正如您所看到的,自编码器找到了最佳的 2D 平面来投影数据,尽可能保留数据中的方差(就像 PCA 一样)。
图 17-2. 由欠完备线性自编码器执行的近似 PCA
注意
您可以将自编码器视为执行一种自监督学习,因为它基于一种带有自动生成标签的监督学习技术(在本例中简单地等于输入)。
堆叠自编码器
就像我们讨论过的其他神经网络一样,自编码器可以有多个隐藏层。在这种情况下,它们被称为堆叠自编码器(或深度自编码器)。添加更多层有助于自编码器学习更复杂的编码。也就是说,必须小心不要使自编码器过于强大。想象一个如此强大的编码器,它只学习将每个输入映射到一个单一的任意数字(解码器学习反向映射)。显然,这样的自编码器将完美地重构训练数据,但它不会在过程中学习任何有用的数据表示,并且不太可能很好地推广到新实例。
堆叠自编码器的架构通常关于中心隐藏层(编码层)是对称的。简单来说,它看起来像三明治。例如,时尚 MNIST 的自编码器(在第十章介绍)可能有 784 个输入,然后是具有 100 个神经元的隐藏层,然后是具有 30 个神经元的中心隐藏层,然后是具有 100 个神经元的另一个隐藏层,最后是具有 784 个神经元的输出层。这个堆叠自编码器在图 17-3 中表示。
图 17-3. 堆叠自编码器
使用 Keras 实现堆叠自编码器
您可以实现一个堆叠自编码器,非常类似于常规的深度 MLP:
stacked_encoder = tf.keras.Sequential([ tf.keras.layers.Flatten(), tf.keras.layers.Dense(100, activation="relu"), tf.keras.layers.Dense(30, activation="relu"), ]) stacked_decoder = tf.keras.Sequential([ tf.keras.layers.Dense(100, activation="relu"), tf.keras.layers.Dense(28 * 28), tf.keras.layers.Reshape([28, 28]) ]) stacked_ae = tf.keras.Sequential([stacked_encoder, stacked_decoder]) stacked_ae.compile(loss="mse", optimizer="nadam") history = stacked_ae.fit(X_train, X_train, epochs=20, validation_data=(X_valid, X_valid))
让我们来看看这段代码:
- 就像之前一样,我们将自编码器模型分成两个子模型:编码器和解码器。
- 编码器接收 28×28 像素的灰度图像,将它们展平,使每个图像表示为大小为 784 的向量,然后通过两个逐渐减小的“密集”层(100 个单元,然后是 30 个单元)处理这些向量,都使用 ReLU 激活函数。对于每个输入图像,编码器输出大小为 30 的向量。
- 解码器接收大小为 30 的编码(由编码器输出),并通过两个逐渐增大的“密集”层(100 个单元,然后是 784 个单元)处理它们,并将最终向量重新整形为 28×28 的数组,以便解码器的输出具有与编码器输入相同的形状。
- 在编译堆叠自编码器时,我们使用 MSE 损失和 Nadam 优化。
- 最后,我们使用
X_train
作为输入和目标来训练模型。同样,我们使用X_valid
作为验证输入和目标。
可视化重构
确保自编码器得到正确训练的一种方法是比较输入和输出:差异不应太大。让我们绘制一些验证集中的图像,以及它们的重构:
import numpy as np def plot_reconstructions(model, images=X_valid, n_images=5): reconstructions = np.clip(model.predict(images[:n_images]), 0, 1) fig = plt.figure(figsize=(n_images * 1.5, 3)) for image_index in range(n_images): plt.subplot(2, n_images, 1 + image_index) plt.imshow(images[image_index], cmap="binary") plt.axis("off") plt.subplot(2, n_images, 1 + n_images + image_index) plt.imshow(reconstructions[image_index], cmap="binary") plt.axis("off") plot_reconstructions(stacked_ae) plt.show()
图 17-4 显示了生成的图像。
图 17-4. 原始图像(顶部)及其重构(底部)
重构是可以识别的,但有点丢失。我们可能需要训练模型更长时间,或者使编码器和解码器更深,或者使编码更大。但是,如果我们使网络过于强大,它将能够进行完美的重构,而不必学习数据中的任何有用模式。现在,让我们使用这个模型。
可视化时尚 MNIST 数据集
现在我们已经训练了一个堆叠自编码器,我们可以使用它来降低数据集的维度。对于可视化,与其他降维算法(如我们在第八章中讨论的算法)相比,这并不会产生很好的结果,但自编码器的一个重要优势是它们可以处理具有许多实例和许多特征的大型数据集。因此,一种策略是使用自编码器将维度降低到合理水平,然后使用另一个降维算法进行可视化。让我们使用这种策略来可视化时尚 MNIST。首先,我们将使用堆叠自编码器的编码器将维度降低到 30,然后我们将使用 Scikit-Learn 的 t-SNE 算法实现将维度降低到 2 以进行可视化:
from sklearn.manifold import TSNE X_valid_compressed = stacked_encoder.predict(X_valid) tsne = TSNE(init="pca", learning_rate="auto", random_state=42) X_valid_2D = tsne.fit_transform(X_valid_compressed)
现在我们可以绘制数据集:
plt.scatter(X_valid_2D[:, 0], X_valid_2D[:, 1], c=y_valid, s=10, cmap="tab10") plt.show()
图 17-5 显示了生成的散点图,通过显示一些图像进行美化。t-SNE 算法识别出几个与类别相匹配的簇(每个类别由不同的颜色表示)。
图 17-5. 使用自编码器后跟 t-SNE 的时尚 MNIST 可视化
因此,自编码器可以用于降维。另一个应用是无监督的预训练。
使用堆叠自编码器进行无监督预训练
正如我们在第十一章中讨论的,如果你正在处理一个复杂的监督任务,但没有太多标记的训练数据,一个解决方案是找到一个执行类似任务的神经网络,并重复使用其较低层。这样可以使用少量训练数据训练高性能模型,因为你的神经网络不需要学习所有低级特征;它只需重复使用现有网络学习的特征检测器。
同样,如果你有一个大型数据集,但其中大部分是未标记的,你可以首先使用所有数据训练一个堆叠自编码器,然后重复使用较低层来创建一个用于实际任务的神经网络,并使用标记数据进行训练。例如,图 17-6 展示了如何使用堆叠自编码器为分类神经网络执行无监督预训练。在训练分类器时,如果你确实没有太多标记的训练数据,可能需要冻结预训练层(至少是较低的层)。
图 17-6。使用自编码器进行无监督预训练
注意
拥有大量未标记数据和少量标记数据是很常见的。构建一个大型未标记数据集通常很便宜(例如,一个简单的脚本可以从互联网上下载数百万张图片),但标记这些图片(例如,将它们分类为可爱或不可爱)通常只能由人类可靠地完成。标记实例是耗时且昂贵的,因此通常只有少量人类标记的实例,甚至更少。
实现上没有什么特别之处:只需使用所有训练数据(标记加未标记)训练一个自编码器,然后重复使用其编码器层来创建一个新的神经网络(请参考本章末尾的练习示例)。
接下来,让我们看一些训练堆叠自编码器的技术。
绑定权重
当一个自编码器是整齐对称的,就像我们刚刚构建的那样,一个常见的技术是将解码器层的权重与编码器层的权重绑定在一起。这样可以减半模型中的权重数量,加快训练速度并限制过拟合的风险。具体来说,如果自编码器总共有N层(不包括输入层),而W[L]表示第L层的连接权重(例如,第 1 层是第一个隐藏层,第N/2 层是编码层,第N层是输出层),那么解码器层的权重可以定义为W[L] = W[N–L+1]^⊺(其中L = N / 2 + 1, …, N)。
使用 Keras 在层之间绑定权重,让我们定义一个自定义层:
class DenseTranspose(tf.keras.layers.Layer): def __init__(self, dense, activation=None, **kwargs): super().__init__(**kwargs) self.dense = dense self.activation = tf.keras.activations.get(activation) def build(self, batch_input_shape): self.biases = self.add_weight(name="bias", shape=self.dense.input_shape[-1], initializer="zeros") super().build(batch_input_shape) def call(self, inputs): Z = tf.matmul(inputs, self.dense.weights[0], transpose_b=True) return self.activation(Z + self.biases)
这个自定义层就像一个常规的Dense
层,但它使用另一个Dense
层的权重,经过转置(设置transpose_b=True
等同于转置第二个参数,但更高效,因为它在matmul()
操作中实时执行转置)。然而,它使用自己的偏置向量。现在我们可以构建一个新的堆叠自编码器,与之前的模型类似,但解码器的Dense
层与编码器的Dense
层绑定:
dense_1 = tf.keras.layers.Dense(100, activation="relu") dense_2 = tf.keras.layers.Dense(30, activation="relu") tied_encoder = tf.keras.Sequential([ tf.keras.layers.Flatten(), dense_1, dense_2 ]) tied_decoder = tf.keras.Sequential([ DenseTranspose(dense_2, activation="relu"), DenseTranspose(dense_1), tf.keras.layers.Reshape([28, 28]) ]) tied_ae = tf.keras.Sequential([tied_encoder, tied_decoder])
这个模型实现了与之前模型大致相同的重构误差,使用了几乎一半的参数数量。
一次训练一个自编码器
与我们刚刚做的整个堆叠自编码器一次性训练不同,可以一次训练一个浅层自编码器,然后将它们堆叠成一个单一的堆叠自编码器(因此得名),如图 17-7 所示。这种技术现在不太常用,但你可能仍然会遇到一些论文讨论“贪婪逐层训练”,所以了解其含义是很有必要的。
图 17-7。一次训练一个自编码器
在训练的第一阶段,第一个自编码器学习重建输入。然后我们使用这个第一个自编码器对整个训练集进行编码,这给我们一个新的(压缩的)训练集。然后我们在这个新数据集上训练第二个自编码器。这是训练的第二阶段。最后,我们构建一个大的三明治,使用所有这些自编码器,如图 17-7 所示(即,我们首先堆叠每个自编码器的隐藏层,然后反向堆叠输出层)。这给我们最终的堆叠自编码器(请参阅本章笔记本中“逐个训练自编码器”部分以获取实现)。通过这种方式,我们可以轻松训练更多的自编码器,构建一个非常深的堆叠自编码器。
正如我之前提到的,深度学习浪潮的一个触发因素是Geoffrey Hinton 等人在 2006 年发现深度神经网络可以通过无监督的方式进行预训练,使用这种贪婪的逐层方法。他们用受限玻尔兹曼机(RBMs;参见https://homl.info/extra-anns)来实现这一目的,但在 2007 年Yoshua Bengio 等人²表明自编码器同样有效。几年来,这是训练深度网络的唯一有效方式,直到第十一章中引入的许多技术使得可以一次性训练深度网络。
自编码器不仅限于密集网络:你也可以构建卷积自编码器。现在让我们来看看这些。
卷积自编码器
如果你处理的是图像,那么迄今为止我们看到的自编码器效果不佳(除非图像非常小):正如你在第十四章中看到的,卷积神经网络比密集网络更适合处理图像。因此,如果你想为图像构建一个自编码器(例如用于无监督预训练或降维),你将需要构建一个卷积自编码器。³ 编码器是由卷积层和池化层组成的常规 CNN。它通常减少输入的空间维度(即高度和宽度),同时增加深度(即特征图的数量)。解码器必须执行相反操作(放大图像并将其深度降至原始维度),为此你可以使用转置卷积层(或者,你可以将上采样层与卷积层结合)。以下是 Fashion MNIST 的基本卷积自编码器:
conv_encoder = tf.keras.Sequential([ tf.keras.layers.Reshape([28, 28, 1]), tf.keras.layers.Conv2D(16, 3, padding="same", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=2), # output: 14 × 14 x 16 tf.keras.layers.Conv2D(32, 3, padding="same", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=2), # output: 7 × 7 x 32 tf.keras.layers.Conv2D(64, 3, padding="same", activation="relu"), tf.keras.layers.MaxPool2D(pool_size=2), # output: 3 × 3 x 64 tf.keras.layers.Conv2D(30, 3, padding="same", activation="relu"), tf.keras.layers.GlobalAvgPool2D() # output: 30 ]) conv_decoder = tf.keras.Sequential([ tf.keras.layers.Dense(3 * 3 * 16), tf.keras.layers.Reshape((3, 3, 16)), tf.keras.layers.Conv2DTranspose(32, 3, strides=2, activation="relu"), tf.keras.layers.Conv2DTranspose(16, 3, strides=2, padding="same", activation="relu"), tf.keras.layers.Conv2DTranspose(1, 3, strides=2, padding="same"), tf.keras.layers.Reshape([28, 28]) ]) conv_ae = tf.keras.Sequential([conv_encoder, conv_decoder])
还可以使用其他架构类型创建自编码器,例如 RNNs(请参阅笔记本中的示例)。
好的,让我们退后一步。到目前为止,我们已经看过各种类型的自编码器(基本、堆叠和卷积),以及如何训练它们(一次性或逐层)。我们还看过一些应用:数据可视化和无监督预训练。
迄今为止,为了强迫自编码器学习有趣的特征,我们限制了编码层的大小,使其欠完备。实际上还有许多其他类型的约束可以使用,包括允许编码层与输入一样大,甚至更大,从而产生过完备自编码器。接下来,我们将看一些其他类型的自编码器:去噪自编码器、稀疏自编码器和变分自编码器。
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(七)(4)https://developer.aliyun.com/article/1482452