无监督学习-自编码器|深度学习(李宏毅)(十九)

简介: 无监督学习-自编码器|深度学习(李宏毅)(十九)

一、深度自编码器


  1. 自编码器


自编码器(Auto-encoder)是一种无监督学习的方法,可以用来进行数据的降维。对于我们的输入数据,可以将其通过一个Encoder来获得一个低维的code,然后将这个code通过一个Decoder来重建原来的数据,而Encoder和Decoder是一起训练。下图以手写数字数据集为例展示了这个过程:


%1ONWJA8NR5L$7$H4%5A~BX.png

                                            Auto-encoder


  1. 类比PCA

J]QZK$(0_{3[$6$N3F{N38D.png

                                                      PCA


  1. 深度自编码器


如下图,自编码器也可以是深度的:


D$KH4W%XWA}WNV7_ITDTEIA.png

                                               深度自编码器  


在PCA类比的自编码器中Encoder和Decoder的权重互为转置,在深度自编码器中也可以使{YS5W0Q3ISMKK]NCGH65[WI.png5(M4KQ594[CC4QPZ6%)0S_E.png等共享参数,这样可以减少参数量,避免过拟合,但是这种做法是没有必要的,按照前馈网络的方式搭建一个深度自编码器,然后使用反向传播训练这个网络即可。


  1. 效果


下图展示了使用深度自编码器和PCA在MNIST数据集上进行降维然后重构的效果,可以看到深度自编码器能够保留更多的信息:


9N]EDF~%`J29A`ITLUE85N1.png

                                                效果


下图是使用PCA和深度自编码器降到V@U`OIC396BL0{O_F{QVL_L.png维以后然后再可视化的结果,使用PCA后数据还是混合在一起,而使用深度自编码器以后数据就被明显地区分开:


B`XV{4NKJP6B0KA$90V(4EC.png

                                                    效果


二、自编码器的变种


  1. 去噪自编码器


去噪自编码器的做法是首先在样本上添加一些噪声,然后将加噪的样本输入到自编码器中,输出的重构样本要尽量与原来未加噪的样本越接近越好:


$68TS(6_J9G%}1D]AT5`$B3.png

                                            去噪自编码器


这样的做法可以使学习到的低维表示具备更高的鲁棒性,这是因为模型在学习重构样本的同时也学习到了如何去除样本中的噪声。


  1. 卷积神经网络的自编码器


  • 架构


卷积神经网络的自编码器也类似深度自编码器,对它的Encoder来说,是将样本(比如图片)进行卷积再进行池化的多层卷积神经网络,然后得到所谓的code,而类比深度自编码器,它的Decoder就要实现“Unpooling”和“Deconvolution”,最后要使模型输出与输入越接近越好,该模型的架构如下:


8%XV(3NJ_[G$JHM{SX}H{(8.png

                                                   CNN自编码器


  • Unpooling


Unpooling需要还原feature map。如下图所示,以Max Pooling为例,为了做Unpooling,我们需要在Pooling时将每个区域内的最大值的位置记录下来,然后在Unpooling时将Unpooling还原的feature map对应的位置填入原来的最大值,然后其余位置设为0:


1]J@B5RW9P`U60ACHJA2SMH.png

                                                     Unpooling


使用这种方法还原的feature map与原来的对比如下:


H~`_TGTVP34D7FX%WO`[$55.png

                                对比


还有一种比较简单的方式就是不记录最大值的位置,只需要在Unpooling还原feature map时将最大值拷贝到原来对应区域的每一个位置即可。


  • Deconvolution


事实上Deconvolution就是Convolution,下面用图来解释这件事情。如下图,以一维数据的卷积为例,对于卷积来说,卷积的feature map中的每一个元素都来自三个权重乘上原来的feature map中的三个元素的累加和:


F1$MNNI{U)_XAYMZ{BAS2O7.png

               Convolution


而在Deconvolution时,需要将当前feature map中的一个元素乘上三个不同的权重然后得到新的feature map中的三个元素,而新的feature map中的一个元素由原来的feature map中的三个不同的元素贡献加和得到(缺失的边缘要做Padding补0),因此这在本质上和Convolution是一样的,共同点都是新的feature map中的每个元素都是由原来feature map中的三个不同的元素乘以各自的权重加和得到:


GHNR4RR70E06CWT]Z@%18(2.png

                                          Deconvolution


三、应用


  1. 文本检索


对于用于文本检索(Text Retrieval)的向量空间模型(Vector Space Model),将文本映射到向量的方法有多种选择。在进行检索时将查询语句也按照同样的方式映射成向量,然后选择与该向量相似度(计算相似度的方法可以选择内积或者余弦相似度等)最高的向量对应的文档进行召回:


D)%SP($[~60JZI6IOCQ][ET.png

                            向量空间模型    


对于将文档映射成向量的方法,一个简单的方法是bag-of-word,这种方法使用一个高维向量代表一篇文档,向量的每一维度代表一个词,其值可以是该词的tf-idf,但是这种方法显然是有局限性的,其丢失了太多信息,且不能代表词的语义信息:


TDHEQ1_X2]N)`DMFMQ@KP9N.png

                                             bag-of-word


我们可以选择使用深度自编码器来构建文档的向量表示,其输入为bag-of-word高维向量,中间层是一个2维向量,其架构如下:


PJ(D0[RLH_H9V5AZS9SV~}4.png

                           深度自编码器


按照这样的方法得到的结果如下:


WY1003{9G1U$OY{GN66]D6U.png

                                             效果


可以看到同一话题的向量被聚合到了一起,将与query对应的向量相似度较高的部分文档召回即可。


另一种方法是使用之前提到过的LSA来找到每一篇文档背后的隐向量,下图展示了文档隐向量的分布情况,显然不同类型的文档隐向量都糅合到了一起,效果不太好:


Y4{R%{(R_TJ_`_3HV0R03H0.png

                             LSA  


  1. 相似图片搜索


类似文本检索,当输入一张查询图片时,我们希望能搜索到数据库中跟这张图片相似的图片,可以使用深度自编码器来对图片进行降维,比如使用下图所示网络的架构:


(QV]4GO~NUH0A8ST6KK(%C8.png

                                            深度自编码器


下图展示了原有图片与重构图片的对比:


SNV6$FS~9$4@BP(4(P}KPAB.png

                          对比


一个简单的想法是通过计算查询图片与数据库中图片像素的欧氏距离来进行召回,下图对这种方法与深度自编码器的方法进行了对比,下图都是对第一张人脸图片进行召回:


5%DHKLO8VUE}G8_Q_WU~BIP.png

                                              欧氏距离


}QM$317F~GFS]IZ[OW18IYF.png

                                             深度自编码器


  1. 深度网络预训练


在使用神经网络时如果能找到一组比较好的初始化参数,能够使神经网络发挥更好的效果,而自编码器就可以用于神经网络的预训练。比如下图的神经网络,我们可以尝试使用自编码器对每一层参数进行预训练,从而期望找到一组好的初始化参数:


D]FZ_N_D[HMDQO~%I41B6WF.png

                                      DNN


具体的利用自编码器进行预训练的流程如下,也就是逐次为每一层参数构建一个自编码器,然后保留并固定当前层的Encoder,最终对最后一层的参数进行随机初始化,然后微调网络的参数就能训练一个效果不错的神经网络模型:


TXG]WHL9J@B_@G$RXLEV$RU.png

                                                     预训练


值得注意的是,在构建中间层比输入输出层维度更高的自编码器时,需要为中间层添加一个很强的正则项,比如L1正则等。感性地来考虑,这是因为由于中间层维度较高自编码器完全可以直接将输入层数据拷贝到中间层,然后再拷贝到输出层,这样可能会导致神经网络什么也没有学到。


由于目前训练神经网络的技术已经比较成熟,事实上没有必要对神经网络做如此繁琐的预训练过程,但是这种预训练的方式并非没有用武之地。举例来说,可以将这种预训练技术应用在无标签数据很多,有标签数据很少的情况下,可以先在大量的无标签数据上进行预训练,然后再使用有标签的数据进行微调即可有效地利用所有数据来取得较好的效果。


  1. 使用自编码器进行生成


下面的实验尝试使用自编码器的Decoder来进行生成,也就是尝试输入一些随机的向量,来尝试让Decoder生成一些有意义的样本(比如图片)。这里使用MNIST数据集进行实验,首先将图片的784维的向量通过Encoder降维到2维然后进行可视化,从如图所示的方框区域等间隔地取样多个随机样本,然后通过Decoder生成了如图所示的图片,可以看到生成的图片之间有一定的渐变规律:


{6YW]`]D4P_L3BVZ}CJ{V3C.png

                                                  生成


通过这种方式我们不能保证随机输入一些向量都能得到类似数字的图片,我们可以考虑通过为自编码器的code添加L2正则来使其分布在0附近,如此我们就可以通过在0附近随机取样来生成一些数字图片了:


W{5XX1F`ZBVJ8$7Z~_BQ`4L.png

                                                       L2正则

相关文章
|
1月前
|
机器学习/深度学习 运维 Python
python深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列
python深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列
|
1月前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:变分自编码器(VAE)
使用Python实现深度学习模型:变分自编码器(VAE)
45 2
|
1月前
|
机器学习/深度学习 数据可视化 PyTorch
使用Python实现深度学习模型:自动编码器(Autoencoder)
使用Python实现深度学习模型:自动编码器(Autoencoder)
32 0
|
1月前
|
机器学习/深度学习 运维
深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列
深度学习实现自编码器Autoencoder神经网络异常检测心电图ECG时间序列
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|
6月前
|
机器学习/深度学习 运维 自然语言处理
揭示堆叠自动编码器的强大功能 - 最新深度学习技术
揭示堆叠自动编码器的强大功能 - 最新深度学习技术
55 0
|
机器学习/深度学习 编解码 人工智能
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
深度学习进阶篇[8]:对抗神经网络GAN基本概念简介、纳什均衡、生成器判别器、解码编码器详解以及GAN应用场景
|
机器学习/深度学习 运维 算法
深度学习实战(九):使用自动编码器生成图像
除了一小部分的算法可以。这就是所谓的无监督学习(Unsupervised Learning)。无监督学习通过自己的方式从未标记的数据中推断出一个函数。最著名的无监督算法是K-Means,它被广泛用于将数据聚类,而PCA则是降维的首选方案。K-Means和PCA可能是有史以来最好的两种机器学习算法。而让它们更出色的是它们的简单性。如果你掌握了它们,你就会觉得:“为什么我没有早点想到呢?
164 0
深度学习实战(九):使用自动编码器生成图像
|
机器学习/深度学习 数据可视化 Java
深度学习--Pytorch构建栈式自编码器实现以图搜图任务(以cifar10数据集为例)
本文旨在使用CIFAR-10数据集,构建与训练栈式自编码器,提取数据集中图像的特征;基于所提取的特征完成CIFAR-10中任意图像的检索任务并展示效果。
175 0
|
机器学习/深度学习 算法 语音技术
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播
李宏毅2021春季机器学习课程视频笔记2:(选修)深度学习简介,反向传播