备案控制台

开发者社区人工智能文章正文

主成分分析|机器学习推导系列（五）

2022-06-06 156

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 主成分分析|机器学习推导系列（五）

一、简介

为什么需要降维

数据的维度过高容易造成维数灾难（Curse of Dimensionality）。.

维数灾难：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。

这里可以举两个几何的例子来看一下维数过高的影响：

$PVCB%`$GP(J(D)%8N9IE]9.png

example1

上图表示一个多维空间（以二维为例），则其中图形的体积有如下关系：

$(N0X]}YI_]6{2BJV8$S$D[D.png$

上式也就表明当数据的维度过高时，数据主要存在于空间的边边角角的地方，这也就造成了数据的稀疏性。

QRISQJ)BEHR1$CL4OM(X`7E.png

example2

上图也表示一个多维空间（以二维为例），则其中图形的体积有如下关系：

$DFE_{{]E`0{J$)J3P5Z%G}R.png$

可以看到当数据的维度过高时，数据主要存在于球壳上，类似于人的大脑皮层。

降维的方法

降维可以作为一种防止过拟合的方式，其具体的方法包含下列几种：

2214(2YTG4DEPE_}_K1BJEY.png

特征选择是一种直接剔除主观认为不重要的特征的过程。

本文接下来的部分主要介绍主成分分析（PCA）。

二、样本均值与样本方差

概述

假设有以下数据：

PJ($O)FN)VW{WVH(VIJ16~N.png

样本均值与样本方差

以下定义了数据的样本均值与样本方差：

{58[X{R9J]SCMWA~@1LEZ63.png

接下来需要对样本均值与样本方差进行一些变换来获得其另一种表示形式：

TP2A9T@LG$8@BV4NV)S6}BB.png

中心矩阵 OIW[JG5[J3TQ@``SE_YG2GJ.png 具备以下性质：

Z3$LWSZ$JZW(8BIRTEQXQE5.png

因此最终可以得到

X(5K)`540275OFWX6KHDJ1R.png

三、主成分分析的思想

总结起来就是：

一个中心：PCA是对原始特征空间的重构，将原来的线性相关的向量转换成线性无关的向量；

两个基本点：最大投影方差和最小重构距离，这是本质相同的两种方法，在接下来的部分将具体介绍。

PCA首先要将数据中心化（即减去均值）然后投影到一个新的方向上，这个新的方向即为重构的特征空间的坐标轴，同时也要保证投影以后得到的数据的方差最大，即最大投影方差，这样也保证了数据的重构距离最小。

四、最大投影方差

%152)E{(GTKQS}D)Y@O]TQE.png

)G0D(RX4ZHMGFGW2(C)YVSH.png

因此该问题就转换为以下最优化问题：

QDLMQDHC)6195QR2@@75V)T.png

然后使用拉格朗日乘子法进行求解：

WB_2K}[@N5Y(]P[JD)HGNSF.png

8QVP`Z(G7{X8[}[SE0ZEDUF.png

[S{]`GU0[5$5@ZFBQ1@KX]6.png

特征向量表示投影变换的方向，特征值表示投影变换的强度。通过降维,我们希望减少冗余信息,提高识别的精度,或者希望通过降维算法来寻找数据内部的本质结构特征。找最大的特征值是因为，在降维之后要最大化保留数据的内在信息，并期望在所投影的维度上的离散最大。

五、最小重构距离

最小重构距离是另一种求解的方法，其本质上和最大投影方差是相同的。

VB5QLZU]EOWMHST@W4}_`GK.png

$ML]`C$[AQUI2_{4~N(MTQFS.png$

因此重构距离也就是指 QJ$[T$5Q{~Q34IPU4GHOUVM.png ，本着最小化重构距离的思想我们可以设置新的损失函数如下：

$B{QM~QA}GOZ8{0BRTOO6_{L.png$

然后就可以转化为以下最优化问题：

UC6[)J1PE3MG9K0{O9M]4(I.png

SA6DN{KI~SX6PDCG{`(T~29.png

六、SVD角度看PCA和PCoA

协方差矩阵 GDO4AUS9`F6WPWB$M$NNRFM.png 的特征分解：

$Y4@8_]HGW5]K}Z3B6JU7{BM.png$

QN9$0PJ49WV4200~5(WFLML.png

YD7IDUGD3LY4}DO8CBK5AGC.png

接下里可以做以下变换：

6}BGT8@UC0LPSZ7[3W25@$K.png

接下来我们构造矩阵 3%_Y_]]NLLZ)H0%UI]SJ]]6.png ：

)KN~{SK]`SK73EL6%QT{JW9.png

H843@[1PRN@@6K9G2K3XQKC.png

①将 DW5[U6RG3N73X7AZ]IZ9C1C.png 进行特征分解然后得到投影的方向，也就是主成分，然后矩阵 SDZN}D@J$__%`4Q1X33G~PN.png 即为重构坐标系的坐标矩阵；

②将 IM3T6_UJT520Y3YX@N5~WH3.png 进行特征分解可以直接获得坐标矩阵 TGKO0INB2L~6HM35D`LF@7W.png 。

（注意应保证 DW5[U6RG3N73X7AZ]IZ9C1C.png 和 IM3T6_UJT520Y3YX@N5~WH3.png 特征分解得到的特征向量是单位向量。）

关于为什么将 IM3T6_UJT520Y3YX@N5~WH3.png 进行特征分解可以直接获得坐标矩阵，现做以下解释：

_%R)MC~]S~D`FYLK4ZURE3Y.png

使用 5K[~5IPJ]L9LGZJU`7C[J1G.png 进行特征分解的方法叫做主坐标分析（Principal Co-ordinates Analysis，PCoA）。

这两种⽅法都可以得到主成分，但是由于⽅差矩阵是 F18%ONX1BC06E)$9PT`7OFQ.png 的，所以对样本量较少的时候可以采⽤ PCoA的⽅法。

七、概率PCA（p-PCA）

概述

假设有以下数据：

B2Z(IHYMI6MUJ8Q1L@I]V`K.png

5`6``K%6BZ}O345YECJEEZB.png

$JLYW%AS_@(4RZS}{1%QT9XC.png$

$OA7L0BJ8]9{QB5D~9W9_7IN.png$

WA9F}SF5J(9ICVF`4)1[SW0.png 的生成过程如下：

@@`8RXFB)CH00R97[O`PH3D.png

生成过程

XF}91%K(IUH~7YR}XV4TYKD.png

推断（inference）

求解 F2688[M~FN)3XLEMG5%`G}9.png 的过程如下：

6_UE_H[R`CI7~(U6`]SDM)S.png

求

_Z6C(87)F8U[P9C@8U_]Z9G.png

求 $@SFHB{G2KB_{BZR`MWGYBOJ.png$

YE@PTK8JCSEV%~H%PH)D3O0.png

求

该问题和高斯分布|机器学习推导系列（二）中第六部分的问题是类似的。

AZ6PO]AOSA}TM0O{8{2XWMH.png

利用高斯分布|机器学习推导系列（二）中第五部分的公式可以求解 $T{ZC%_11Z]B`{9KZ~9%NZ2U.png$

$51Z9UEQI{17}W{G[B]}_D6A.png$

学习（learning）

使用EM算法求解，这里不做展示。

参考资料

ref:降维时为什么找最大的特征值对应的特征向量

ref:《模式识别与机器学习》

文章标签：

机器学习/深度学习

数据中心

算法

关键词：

分析人工智能平台 PAI

分析机器学习平台 PAI

机器学习平台 PAI推导

酷酷的群

目录

相关文章

Echo_Wish

|

7天前

|

机器学习/深度学习数据采集分布式计算

大数据分析中的机器学习基础：从原理到实践

大数据分析中的机器学习基础：从原理到实践

Echo_Wish

46 3 3

Deephub

|

6月前

|

机器学习/深度学习算法数据可视化

机器学习模型中特征贡献度分析：预测贡献与错误贡献

本文将探讨特征重要性与特征有效性之间的关系，并引入两个关键概念：预测贡献度和错误贡献度。

Deephub

662 3 3

Echo_Wish

|

3月前

|

机器学习/深度学习数据可视化大数据

机器学习与大数据分析的结合：智能决策的新引擎

机器学习与大数据分析的结合：智能决策的新引擎

Echo_Wish

302 15 16

Echo_Wish

|

3月前

|

机器学习/深度学习数据采集运维

机器学习在运维中的实时分析应用：新时代的智能运维

机器学习在运维中的实时分析应用：新时代的智能运维

Echo_Wish

110 12 12

东方睿赢

|

8月前

|

机器学习/深度学习数据可视化搜索推荐

Python在社交媒体分析中扮演关键角色，借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。

【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色，借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化，以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践，可以提升社交媒体分析能力。

东方睿赢

124 1 2

FrancekChen

|

4月前

|

机器学习/深度学习分布式计算算法

【大数据分析&机器学习】分布式机器学习

本文主要介绍分布式机器学习基础知识，并介绍主流的分布式机器学习框架，结合实例介绍一些机器学习算法。

FrancekChen

642 5 5

Deephub

|

5月前

|

机器学习/深度学习数据可视化数据挖掘

机器学习中空间和时间自相关的分析：从理论基础到实践应用

空间和时间自相关是数据分析中的重要概念，揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础，并通过野火风险预测的实际案例，展示了如何利用随机森林模型捕捉时空依赖性，提高预测准确性。

Deephub

239 0 1

机器学习中空间和时间自相关的分析：从理论基础到实践应用

zzy的aly

|

5月前

|

数据采集移动开发数据可视化

模型预测笔记(一)：数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程，包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤，并展示了模型融合技术。

zzy的aly

613 1 2

模型预测笔记(一)：数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)

半截诗

|

5月前

|

机器学习/深度学习数据采集算法

【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用

【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用

半截诗

79 2 2

平凡程序猿~

|

5月前

|

机器学习/深度学习数据可视化算法

机器学习中的回归分析：理论与实践

机器学习中的回归分析：理论与实践

平凡程序猿~

149 1 1

热门文章

最新文章

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

阿里云PAI部署DeepSeek及调用

云上玩转DeepSeek系列之二：PAI+DeepSeek，打造智能问答助手

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

阿里万相重磅开源，人工智能平台PAI一键部署教程来啦

云上玩转DeepSeek系列之三：PAI-RAG集成联网搜索，构建企业级智能助手

Unsloth：学生党福音！开源神器让大模型训练提速10倍：单GPU跑Llama3，5小时变30分钟

基于阿里云 Milvus + DeepSeek + PAI LangStudio 的低成本高精度 RAG 实战

DeepSeek服务器繁忙？拒绝稍后再试！基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型

Hologres × PAI × DeepSeek 搭建 RAG 检索增强对话系统

Python 高级编程与实战：深入理解数据科学与机器学习

Python 高级编程与实战：深入理解数据科学与机器学习

机器学习特征筛选：向后淘汰法原理与Python实现

部门专集｜人工智能平台PAI团队期待你的加入

【云栖大会】阿里云PAI ArtLab x 通往AGI之路：ArtLab开源共创与商业落地

【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展，PAI ArtLab助力高校AIGC教育新路径

2024云栖大会回顾｜PAI ArtLab x 通往AGI之路系列活动，PAI ArtLab助力行业AI创新

又又又上新啦！魔搭免费模型推理API支持DeepSeek-R1，Qwen2.5-VL，Flux.1 dev及Lora等

R1类模型推理能力评测手把手实战

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

基于Spark的面向十亿级别特征的大规模机器学习

基于Spark的大规模机器学习在微博的应用

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

推荐系统入门之使用ALS算法实现打分预测

下一篇

通义万相：视觉生成大模型再进化