无监督学习-线性方法|深度学习(李宏毅)(十七)

简介: 无监督学习-线性方法|深度学习(李宏毅)(十七)

一、概述


无监督学习可以认为主要包括两种,一种是化繁为简(比如聚类和降维)和无中生有(比如生成)。化繁为简这种方式只有模型的输入,而无中生有这种方式只有模型的输出:


W7[MU3JK3YV5V58EJC[HOVT.png

                                               无监督学习


在本文中主要介绍一些聚类和降维的方法。


二、聚类


  1. K-means


K-means是一种无监督的聚类方法,通常我们有一些数据,需要分成多个类。这里有一个问题就是事先需要确定要聚成多少个类,类的个数不能太多也不能太少,极端地将数据聚成样本个数个类或者一个类都相当于没有进行聚类:


Z7@ZJ7JONR]1KMO7I0RH@MP.png

                                            Clustering

06WR}0P$8$JPDX(K(8W4J[D.png


  1. Hierarchical Agglomerative Clustering(HAC)


HAC这种聚类方法首先根据样本相似度构建一棵二叉树,然后选择一个阈值来进行聚类。


如下图,首先在计算所有的样本pair的相似度,然后将相似度最高的两个样本合并起来(合并的方法可以是计算平均值),然后重复上述过程直至最终构建出整棵二叉树:


JK{`ID}(GJLU_DZON8B)5AE.png

                                             建树


构建出二叉树以后选择一个阈值,类似于在树上切一刀,下图展示了不同的阈值所对应的聚类结果:


1R4F6NG1T9@HOZ@]Y7W9(O3.png

                                          聚类


三、降维


  1. 概述


在聚类的方法中每个样本必须被划分为一个类,而有时一个样本既可以属于这一类,也可能属于另一类,这种情况下我们需要样本的一个分布的表示,使用降维的方法可以做到这一点。


我们可以从另一个角度来考虑降维这种方法可能是有用的。如下图左边的3维的数据实际上可以使用2维的数据来表示(将左图螺旋状数据展平):


)57MYYN`OIJBP4TN2(HTP11.png

                                            example

举另外一个例子,在MNIST数据集中每个数字用}%2Q2J6%F{G[[PFB)}TT6J5.png的矩阵来表示,但是大多数}%2Q2J6%F{G[[PFB)}TT6J5.png的图片都不是数字,也就是说使用}%2Q2J6%F{G[[PFB)}TT6J5.png的矩阵是冗余的,随机初始化一张图片很难生成一个数字:


G(`0(@FQG5@L@TP[R_WC{AJ.png

                                          MNIST  


在下图中的不同的3,事实上不需要使用$BF{DH{TN@]2)JOS`WW9ERD.png的矩阵的来表示,只需要记录其旋转的角度即可:


9CL@5GX)5)`B@]O@WF_AKHP.png

                                       不同的3


上述例子说明将高维的样本降维到低维空间是有实际意义的。


如下图,降维的主要流程也就是找一个function来讲高维样本KQ1~T%MB4095){@WMS4{UMH.png降维到低维样本KQ1~T%MB4095){@WMS4{UMH.png

A[ZZH{2~%@TK_1FTAWA66{L.png

                                                     降维


  1. Feature Selection


降维的最简单的方法是Feature Selection。这种方法就是简单地删除某些维度,比如下图中可以把15ZPR~I]$CALONIEVTO](OR.png这个维度拿掉:

TSV{HCD1L8Z6)5M4JU_[F2U.png


           Feature Selection


有时数据的任何一维都很重要,这时候Feature Selection的方法就不能用了,比如下面这种情况:


 RRLBBOA{DKTZZT_1(D[(J36.png

                Feature Selection


  1. Principal Component Analysis


  • 介绍

1A6]ZU[8J{T4VI339A`9B7B.png

                                                   投影


以下图为例,如果要选择一个方向进行投影,我们需要选择投影后方差最大的方向(红色箭头的方向)进行投影,这样可以保留更多的数据的特征,也就是说我们希望`5U`Y_G6AI_N6AL1M8TRDR3.png的方差越大越好:


)U12S~GI{D2MAE508GFX@R3.png

                                                  数据


NIPHCT)CE`C(L1S~MZU$G}6.png

Z$VR0723T~S79(5VJ01IVHI.png

下面对G[WLW8%1))M3{8$O0X}(49R.png进行求解:

7M}{7`Q6MW9]ZEV0A6MOND0.png

@%MINFC79Q0_HEX7ZC[F3$N.png

使用拉格朗日乘子法来求解上述约束优化问题,定义拉格朗日函数:


~`O$`W0J86N7%YKR@9{9Z[9.png

EL60TA}U[[{BT23[%X()RQN.png


  • 去相关性


RYEJ1AGBT63DB8QPZ6N{7~B.png

从最小重构代价和SVD角度看PCA


XXP]%G$)9HYLZCQLBNUBHDQ.png

                                              数字的构成

MHBZS(FY6E~VRS[8FTI@JPJ.png

43E%]D`8S6H7]V}1JWT7V9C.png

将所有的样本集合起来就可以写成矩阵相乘的形式:


Z}YF}}_L2AH38WD4HTCHFRT.png

                                     矩阵形式


KXM1(TO$T[981MO_OS(VY1K.png

                                        奇异值分解的形式


T3%~`71LMEMZJFL0CNC%S{R.png

另一篇有关PCA推导的文章:主成分分析|机器学习推导系列(五)


  • PCA与AutoEncoder


X90XJOU$8K72`(UO_Z)_P[B.png

                                       AutoEncoder

这个神经网络训练的方式就是使得网络的输入FJ205U}6O[$3_E9KA_20%XB.png越接近越好,使用梯度下降来求解。需要注意的是,PCA的方法是可以通过奇异值分解或者拉格朗日乘子法求得解析解的,所得解是一些彼此正交的向量,而神经网络使用梯度下降的方法求得的解一般不会正好是解析解,因此重构损失一般会比解析解对应的重构损失大一些。


  • PCA的局限性


首先PCA是无监督的,举例来说在下图中对数据进行PCA降维的话将会把数据投影到箭头所指的方向上:


XAQMG1434%7S@P7$_QEGRTX.png

                                                 PCA


而加入这些数据是两个类别,那么两个类别的数据就会混合到一起。对于多类别的数据,可以使用另一种降维方法,叫做线性判别分析(Linear Discriminant Analysis,LDA),参考链接:线性分类|机器学习推导系列(四)。这种方法会按照下图箭头方向进行投影:


H`NV)}8HD9$ETELVXK33SQO.png

                                   LDA


另外一点是PCA是线性的,并非任何数据分布都能使用线性方法来处理,比如下图数据:


Y3TT7WX(HYG{SK4]DDQ3VRL.png

                         数据


这种类型的数据最好能够将其展开,如果使用PCA则会得到以下结果:


GA}IRKEJ0MGCB4I_Q2OSB@O.png

                            PCA


四、应用


  1. 使用PCA分析宝可梦数据


假设一只宝可梦的数据样本包含六个维度,现在要将所有的数据进行PCA的降维,降到多少个维度可以通过比较数据的方差矩阵的特征值来得到,首先计算每个特征值的占比:


BTA}PJKD}}4($KL[3JPPG(D.png


得到结果如下表:

%%2(KU6$_2}C9V46)V146FL.png

                                                      占比


选择占比较大的前几个即可。降维后得到的主成分如下图:


0([Y`TX23@UHB3Y_U_)JFVY.png

                                                      主成分


  1. 对图片进行PCA


下面展示了分别对数字和人脸图片进行PCA的结果,都是提取了30个主成分:


UH%9EW3L}W4E[[PR988ONCU.png

                                                   数字


9RHYJ`5KQ@91(O9RW((2VWN.png

                                                        人脸


这里的数字的主成分看起来不像是笔画,人脸的主成分看起来也是完整的人脸,这是因为将这些主成分进行线性组合时的权重可能是正的也可能是负的。如果想让得到的主成分是笔画或者五官这样的图片,可以使用非负矩阵分解(Non-negative Matrix Factorization,NMF)这种方法,这种方法会限制权重和主成分都是非负的,最终得到的效果如下:


MQMFLEWY(_68_UK7F_BQJ%W.png

                                                         数字


6~41UQ1GA(WCQEG3ZEF8CU5.png

                                                 人脸


  1. 矩阵分解


下图展示了A、B、C、D、E五个阿宅购买公仔的情况:


M3$55P(N0H]V@~4[RN%8N9A.png 

                                                数据


下面使用矩阵分解(Matrix Factorization)来解释上面的数据。假设每个阿宅有一个隐向量来表示他对某种属性公仔的喜好(用@FH02A7V6U8WJF96G4D12A7.png来表示),每个公仔也有一个隐向量来表示该公仔的属性(用_KHAYYQKTJWI@4~SY$_WP4D.png来表示),这里假设这些隐向量维度是2,喜好隐向量与属性隐向量的点积代表了这个阿宅会购买这个公仔的数量:


YQZ9JPR0OMGTGI8C6@`[%RE.png

                                                隐向量

假设数据矩阵为{)D(JRV@TILB@8NVL5N1K$1.png{)D(JRV@TILB@8NVL5N1K$1.png是由隐变量的点积组成的:

S{IZ[`856BM5$H$FD{]K(U4.png

                                                     数据


可以使用SVD的方式来求解:


68F8Y4%BE_F6YQ(BGKPU5YF.png

                                                 SVD

如果~86Q(QI2BB6O2QHH[$L$J8D.png中某些位置的数据不知道,如下图:

M]`Q{_%~MGH63V765`YM~QD.png

                                                     缺失数据


可以使用梯度下降的方法来求解隐变量,损失函数如下:


A3%5XGN$%22SB2SY]H@D%~K.png


根据结果可以分析隐变量代表的含义,比如通过下图结果可以认为隐变量第一维是天然呆属性,第二维是傲娇属性:


JVF%[BC048EJ9TDK6)L7)NU.png

                                                      结果


可以使用解得的结果来填充数据:


MOIQ2VKNU9LUL}BW0[G}Z)R.png

                                                        填充数据


这个模型还可以更精致一点,比如我们可以考虑阿宅或者公仔的一些其他属性,现在做以下变动:


B]2RP8DHKL8BK8_V26LYH3O.png

也可以为上式添加正则项。


上述技术通常会被用在推荐系统中。


  1. 使用矩阵分析来做话题分析


将上述矩阵分析的技术用在话题分析上的话,就叫做潜在语义分析(Latent Semantic Analysis,LSA)。举例来说,下表表示了某些词在语料库的每个文档中的出现情况,表中的数据可以是词的tf(term frequency),也可以是词的tf-idf:


%T0ZD1EV[7L4E[Z%$2FP9IX.png

                                                    数据


将上述数据矩阵做分解,得到的隐变量的每一维度就代表一个话题,该维度的数值就表明该文章倾向于该话题的程度。

相关文章
|
4天前
|
机器学习/深度学习 算法 数据可视化
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
【从零开始学习深度学习】46. 目标检测中锚框的概念、计算方法、样本锚框标注方式及如何选取预测边界框
|
4天前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
|
4天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】18. Pytorch中自定义层的几种方法:nn.Module、ParameterList和ParameterDict
【从零开始学习深度学习】18. Pytorch中自定义层的几种方法:nn.Module、ParameterList和ParameterDict
|
4天前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】17. Pytorch中模型参数的访问、初始化和共享方法
【从零开始学习深度学习】17. Pytorch中模型参数的访问、初始化和共享方法
|
1月前
|
机器学习/深度学习 存储 自然语言处理
深度探索自适应学习率调整:从传统方法到深度学习优化器
【5月更文挑战第15天】 在深度学习的复杂网络结构与海量数据中,学习率作为模型训练的关键超参数,其调整策略直接影响着模型的收敛速度与最终性能。传统的学习率调整方法,如固定学习率、学习率衰减等,虽然简单易行,但在多样化的任务面前往往显得力不从心。近年来,随着自适应学习率技术的兴起,一系列创新的优化器如Adam、RMSProp和Adagrad等应运而生,它们通过引入自适应机制动态调整学习率,显著改善了模型的训练效率与泛化能力。本文将深入剖析传统学习率调整方法的原理与局限性,并详细介绍当前主流的自适应学习率优化器,最后探讨未来可能的发展方向。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
深度解析深度学习中的优化算法:从梯度下降到自适应方法
【4月更文挑战第28天】 在深度学习模型训练的复杂数学迷宫中,优化算法是寻找最优权重配置的关键导航者。本文将深入探讨几种主流的优化策略,揭示它们如何引导模型收敛至损失函数的最小值。我们将比较经典的批量梯度下降(BGD)、随机梯度下降(SGD)以及动量概念的引入,进一步探索AdaGrad、RMSProp和Adam等自适应学习率方法的原理与实际应用。通过剖析这些算法的理论基础和性能表现,我们旨在为读者提供一个关于选择合适优化器的参考视角。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4天前
|
机器学习/深度学习 数据采集 算法
未来研究将深入探索深度学习的应用及数据质量与安全问题
【6月更文挑战第13天】本文探讨了使用Python和机器学习预测股票价格的方法,包括数据收集与预处理(填充缺失值、处理异常值、标准化)、特征选择(技术指标、基本面指标、市场情绪)、模型选择与训练(线性回归、SVM、神经网络等)、模型评估与调优。尽管股票价格受多重因素影响,通过不断优化,可构建预测模型。未来研究将深入探索深度学习的应用及数据质量与安全问题。
23 5
|
4天前
|
机器学习/深度学习 传感器 自动驾驶
探讨深度学习在自动驾驶中的应用,以及它如何推动自动驾驶技术的发展
【6月更文挑战第13天】本文探讨了深度学习在自动驾驶汽车中的核心应用,涉及环境感知、决策规划和控制执行。深度学习通过模拟神经元工作方式处理传感器数据,如使用CNN和RNN识别图像和雷达信息。此外,它助力智能决策规划和精确控制执行。然而,数据需求、可解释性和实时性是当前挑战,可通过数据增强、规则方法、模型压缩等手段解决。随着技术发展,深度学习将进一步提升自动驾驶性能,并应对安全和隐私挑战。
16 5
|
1天前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与未来发展
随着科技的不断进步,深度学习已成为人工智能领域的重要技术。本文探讨了深度学习在图像识别中的应用,以及未来可能的发展方向,并提供了一些实际应用案例。
8 0

热门文章

最新文章