主成分分析|机器学习推导系列(五)

简介: 主成分分析|机器学习推导系列(五)

一、简介


  1. 为什么需要降维


数据的维度过高容易造成维数灾难(Curse of Dimensionality)。.


维数灾难:通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。


这里可以举两个几何的例子来看一下维数过高的影响:


$PVCB%`$GP(J(D)%8N9IE]9.png

                      example1


上图表示一个多维空间(以二维为例),则其中图形的体积有如下关系:


(N0X]}YI_]6{2BJV8$S$D[D.png


上式也就表明当数据的维度过高时,数据主要存在于空间的边边角角的地方,这也就造成了数据的稀疏性。


QRISQJ)BEHR1$CL4OM(X`7E.png

                                                  example2


上图也表示一个多维空间(以二维为例),则其中图形的体积有如下关系:


DFE_{{]E`0{J$)J3P5Z%G}R.png


可以看到当数据的维度过高时,数据主要存在于球壳上,类似于人的大脑皮层。


  1. 降维的方法


降维可以作为一种防止过拟合的方式,其具体的方法包含下列几种:


2214(2YTG4DEPE_}_K1BJEY.png


特征选择是一种直接剔除主观认为不重要的特征的过程。


本文接下来的部分主要介绍主成分分析(PCA)。


二、样本均值与样本方差


  1. 概述


假设有以下数据:


PJ($O)FN)VW{WVH(VIJ16~N.png


  1. 样本均值与样本方差


以下定义了数据的样本均值与样本方差:


{58[X{R9J]SCMWA~@1LEZ63.png


接下来需要对样本均值与样本方差进行一些变换来获得其另一种表示形式:


TP2A9T@LG$8@BV4NV)S6}BB.png


中心矩阵OIW[JG5[J3TQ@``SE_YG2GJ.png具备以下性质:

Z3$LWSZ$JZW(8BIRTEQXQE5.png


因此最终可以得到


X(5K)`540275OFWX6KHDJ1R.png


三、主成分分析的思想


总结起来就是:


一个中心:PCA是对原始特征空间的重构,将原来的线性相关的向量转换成线性无关的向量;

两个基本点:最大投影方差和最小重构距离,这是本质相同的两种方法,在接下来的部分将具体介绍。


PCA首先要将数据中心化(即减去均值)然后投影到一个新的方向上,这个新的方向即为重构的特征空间的坐标轴,同时也要保证投影以后得到的数据的方差最大,即最大投影方差,这样也保证了数据的重构距离最小。


四、最大投影方差

%152)E{(GTKQS}D)Y@O]TQE.png

)G0D(RX4ZHMGFGW2(C)YVSH.png


因此该问题就转换为以下最优化问题:


QDLMQDHC)6195QR2@@75V)T.png


然后使用拉格朗日乘子法进行求解:

WB_2K}[@N5Y(]P[JD)HGNSF.png

8QVP`Z(G7{X8[}[SE0ZEDUF.png

[S{]`GU0[5$5@ZFBQ1@KX]6.png


特征向量表示投影变换的方向,特征值表示投影变换的强度。通过降维,我们希望减少冗余信息,提高识别的精度,或者希望通过降维算法来寻找数据内部的本质结构特征。找最大的特征值是因为 ,在降维之后要最大化保留数据的内在信息,并期望在所投影的维度上的离散最大。


五、最小重构距离


最小重构距离是另一种求解的方法,其本质上和最大投影方差是相同的。

VB5QLZU]EOWMHST@W4}_`GK.png

ML]`C$[AQUI2_{4~N(MTQFS.png


因此重构距离也就是指QJ$[T$5Q{~Q34IPU4GHOUVM.png,本着最小化重构距离的思想我们可以设置新的损失函数如下:


B{QM~QA}GOZ8{0BRTOO6_{L.png


然后就可以转化为以下最优化问题:


UC6[)J1PE3MG9K0{O9M]4(I.png


SA6DN{KI~SX6PDCG{`(T~29.png

六、SVD角度看PCA和PCoA

协方差矩阵GDO4AUS9`F6WPWB$M$NNRFM.png的特征分解:

Y4@8_]HGW5]K}Z3B6JU7{BM.png


QN9$0PJ49WV4200~5(WFLML.png

YD7IDUGD3LY4}DO8CBK5AGC.png


接下里可以做以下变换:


6}BGT8@UC0LPSZ7[3W25@$K.png


接下来我们构造矩阵3%_Y_]]NLLZ)H0%UI]SJ]]6.png

)KN~{SK]`SK73EL6%QT{JW9.png

H843@[1PRN@@6K9G2K3XQKC.png


①将DW5[U6RG3N73X7AZ]IZ9C1C.png进行特征分解然后得到投影的方向,也就是主成分,然后矩阵SDZN}D@J$__%`4Q1X33G~PN.png即为重构坐标系的坐标矩阵;


②将IM3T6_UJT520Y3YX@N5~WH3.png进行特征分解可以直接获得坐标矩阵TGKO0INB2L~6HM35D`LF@7W.png

(注意应保证DW5[U6RG3N73X7AZ]IZ9C1C.pngIM3T6_UJT520Y3YX@N5~WH3.png特征分解得到的特征向量是单位向量。)

关于为什么将IM3T6_UJT520Y3YX@N5~WH3.png进行特征分解可以直接获得坐标矩阵,现做以下解释:

_%R)MC~]S~D`FYLK4ZURE3Y.png

使用5K[~5IPJ]L9LGZJU`7C[J1G.png进行特征分解的方法叫做主坐标分析(Principal Co-ordinates Analysis,PCoA)。


这两种⽅法都可以得到主成分,但是由于⽅差矩阵是F18%ONX1BC06E)$9PT`7OFQ.png,所以对样本量较少的时候可以采⽤ PCoA的⽅法。


七、概率PCA(p-PCA)


  1. 概述


假设有以下数据:


B2Z(IHYMI6MUJ8Q1L@I]V`K.png

5`6``K%6BZ}O345YECJEEZB.png

JLYW%AS_@(4RZS}{1%QT9XC.png


OA7L0BJ8]9{QB5D~9W9_7IN.png

WA9F}SF5J(9ICVF`4)1[SW0.png的生成过程如下:


@@`8RXFB)CH00R97[O`PH3D.png

                                                   生成过程


XF}91%K(IUH~7YR}XV4TYKD.png

  1. 推断(inference)


求解F2688[M~FN)3XLEMG5%`G}9.png的过程如下:

6_UE_H[R`CI7~(U6`]SDM)S.png


  • JO6~QJ6QY94{SD(OK$T7GD7.png

_Z6C(87)F8U[P9C@8U_]Z9G.png


  • @SFHB{G2KB_{BZR`MWGYBOJ.png

YE@PTK8JCSEV%~H%PH)D3O0.png


  • F2688[M~FN)3XLEMG5%`G}9.png


该问题和高斯分布|机器学习推导系列(二)中第六部分的问题是类似的。


AZ6PO]AOSA}TM0O{8{2XWMH.png


利用高斯分布|机器学习推导系列(二)中第五部分的公式可以求解T{ZC%_11Z]B`{9KZ~9%NZ2U.png

51Z9UEQI{17}W{G[B]}_D6A.png


  1. 学习(learning)


使用EM算法求解,这里不做展示。


参考资料


ref:降维时为什么找最大的特征值对应的特征向量


ref:《模式识别与机器学习》

相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
286 3
|
4月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
84 1
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
62 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
60 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
1月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
38 2
|
1月前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
108 0
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
50 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
3月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
73 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
2月前
|
机器学习/深度学习 存储 数据挖掘
Hologres 与机器学习的融合:为实时分析添加预测性分析功能
【9月更文第1天】随着数据科学的发展,企业越来越依赖于从数据中获取洞察力来指导决策。传统的数据仓库主要用于存储和查询历史数据,而现代的数据仓库如 Hologres 不仅提供了高性能的查询能力,还能够支持实时数据分析。将 Hologres 与机器学习技术相结合,可以在实时数据流中引入预测性分析,为企业提供更深入的数据洞见。本文将探讨如何将 Hologres 与机器学习集成,以便实现实时的预测性分析。
86 4
下一篇
无影云桌面