Autoencoder基本是Deep Learning最经典的东西,也是入门的必经之路。Autoencoder是一种数据的压缩算法,其中数据的压缩和解压缩函数必须是数据相关的,有损的,从样本中自动学习的。在大部分提到自动编码器的场合,压缩和解压缩的函数是通过神经网络实现的。
在这里,我来给大家完成一个MNIST数据集的Autoencoder
首先下载MNIST数据,在这里友情提醒一下,MNIST的数据集因为某些原因,下载速度非常的慢,在这里推荐去THE MNIST DATABASE下载。下载完成后建一个MNIST_data的文件夹,放进去。
在这里提一下,为什么我们要将图片设置为28*28?
28*28的特征图大小可以防止输入的连接掉到边界之外,不导致梯度损失。
大家觉得自编码器可以在没有标签的时候学习到数据的有用表达。但是,自编码器并不是一个真正的Unsupervised Learning的算法,而是一个Self-Supervised Learning算法。并且,Self-Supervised Learning是Supervised Learning的一个部分,其标签产生自输入数据。
要获得一个自监督的模型,你需要想出一个靠谱的目标函数和一个损失函数。我们首先将Autoencoder用这些图片来训练,得到784长度的向量。同时这些数据集的图像已经完成了归一化,也就是说要么是一,要么是零。首先我们先建立一个单层ReLu隐藏层来完成一个很简单的Autoencoder,这一层是用来做压缩的。然后encoder就是输入层和隐藏层,decoder是隐藏层和输出层。这句话比较难理解,就是输入层进行输入,经中间的隐藏层来进行一些变换,隐藏层为encoder和decoder共有。而后至输出层得到结果,然而由于我们将图像正则化了,所以我们需要在输出层上加一个Sigmoid函数来获得结果。
对了,在这里解释一下为啥是784: