【机器学习算法】4、降维算法之PCA(深入理解与实践)(一)

简介: 【机器学习算法】4、降维算法之PCA(深入理解与实践)(一)

简介


   一般情况下,向量的各个分量之间可能存在一定的相关性。直接将向量送入机器学习算法中处理效率会很低,也会影响算法的精度。为了可视化显示数据,人们需要把向量变换到低维空间后再送入算法中进行处理。


   目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的数据,之所以使用降维后的数据表示是因为在原始的高维数据空间中,包含冗余信息以及噪声信息,在实际应用例如图像识别中的误差,降低了精度;而通过降维处理,可以减少冗余信息造成的误差,提高模型的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。


   在很多算法中,降维算法只是数据预处理的一部分,接下来讨论的主要是对于PCA降维算法的理论分析。


PCA算法的流程



维度灾难的几何解释


   如图所示的超几何图像,数据处于D维空间中,r=1

5a259dced0d7210fd32730e323b52e9f.png

   通过上式可以看出,当空间维度D趋近于无穷大时,空间内的超球体的体积趋近于0,也就是说样本基本上都落于绿色的区域内,同理看右侧图:

ea897ecd277bd7cffe93bebeb37b925f.png

   同样可以看出,当数据维度D趋近于无穷大的时候,数据也落在绿色的区域内,也就是说深蓝色区域中基本上是空的,也就是说,当数据维度为很高的D维是,中间很多一部分是空的,导致数据维度很高,但是数据是稀疏的,也就造成了维度灾难。


PCA算法具体步骤的推导


1、数据中心化的解释

   假设数据为如下定义的形式:

f569af15c22747fdb610be4d47b94d8d.png

   样本均值(Sample Mean)和样本方差(Sample Co-variance):

61214b558c10b35bace82f53b1c45c7e.png

对于样本方差,继续进行推导可以得到:

e762e100d8249eb7dc3ab4c1b3e007b4.png

等式的右边的前半部分

4d12610fb513debd7067d424b88abaf4.png

同理,等式右边的后半部分

febe68bd34b7326818d390fe10d66e3c.png

于是可以的到样本协方差为:

4756c13f791b7ae07577dcec53ac8dd4.png

其中

c4109d2ae05319ddb7ba506dde1ee4a8.png


2、最大投影方差的解释

已知Sample Mean和Sample Co-variance分别为:

1ab07ea74317a55013f3fdb26bdad8de.png

da58560e768ac1a62b36797c358b5a9f.png

   所谓的投影方差最大化,意思就是样本在低维空间尽可能地分离,从图2可以看出来,样本在基向量u1上投影得到的结果对于分类而言更容易分出结果,而在u2上的话很容易造成数据在低维空间的重合而形成本来没有的线性关系,造成有用的信息被清除,进而影响结果。

166bbd44355c98e224795bd3d26661dc.png

   通过图3可以得到单个样本投影的方差为:

b8b8f93ef4da5ac9e15ee1c8732b799e.png

不妨设

5bd0af418b8b9bb3cc870328833a0fa2.png

   可以看出投影方差最大化其实就是一个带约束的最优化问题,假设拉格朗日函数为:

9701c9565739e5f71385ad38f6c16b6a.png

对拉格朗日函数关于u1求导可以得到如下的等式:

53f1f226169ba25988ba49f6e43f5051.png

   于是便找到了最大投影向量和特征值的对应关系,至此推导完毕。


3、最小重构距离的解释

   所谓的重构距离就是降维后的数据重新映射到原来的维度后与原始的数据点尽可能地接近,让损失地信息尽可能小。

45d5eb173b360aff4dcf6e1527d3d527.jpg

已知基向量u和中心化后地数据,于是重构向量可以得到;

c4611ddf1c5bde3a333c8cbc95b26a73.png

所以可以得到重构距离为:

3d06c667f73c185344fb5517e75be08c.png

   可以看出和最大投影方差一样依然是一个带约束的优化问题,通过构造拉格朗日函数和求得可以得到:

17d4e5736a9e4d26ecc0cd4635ed7cfc.png

于是找到对重构距离影响最小的(P-q)个维度。得证。


4、维度取舍问题的解释

   依据就是方差,方差越大的特征,特征中的数据分布的离散程度就越大,特征所包含的信息量也就越大;反之,如果特征中的数据方差比较小,数据特征中包含的数据信息了也比较小;而我们设计模型时就是要求在数据维度一定的同时特征中包含的信息越多越好,而特征值越大所包含的数据分布信息越多,所以保留特征值大的队列。

相关文章
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现PCA降维和KNN人脸识别模型(PCA和KNeighborsClassifier算法)项目实战
Python实现PCA降维和KNN人脸识别模型(PCA和KNeighborsClassifier算法)项目实战
|
6天前
|
机器学习/深度学习 算法 开发工具
大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践
阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对DPO算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现大语言模型的DPO对齐微调。本文以阿里云最近推出的开源大型语言模型Qwen2(通义千问2)系列为例,介绍如何在PAI-QuickStart实现Qwen2的DPO算法对齐微调。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习之深度学习算法概念
深度学习算法是一类基于人工神经网络的机器学习方法,其核心思想是通过多层次的非线性变换,从数据中学习表示层次特征,从而实现对复杂模式的建模和学习。深度学习算法在图像识别、语音识别、自然语言处理等领域取得了巨大的成功,成为人工智能领域的重要技术之一。
23 3
|
11天前
|
人工智能 自然语言处理 算法
昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力
【7月更文挑战第4天】昆仑万维与南洋理工大学推出Q*算法,大幅提升7B规模语言模型的推理效能。Q*通过学习Q值模型优化LLMs的多步推理,减少错误,无需微调,已在多个数据集上展示出显著优于传统方法的效果。尽管面临简化复杂性和效率挑战,这一创新为LLM推理能力提升带来重大突破。[论文链接:](https://arxiv.org/abs/2406.14283)**
15 1
|
12天前
|
机器学习/深度学习 数据采集 人工智能
|
16天前
|
算法 调度 云计算
操作系统中的调度算法:从理论到实践
在计算机科学领域,操作系统的调度算法是决定任务执行顺序的关键。本文首先概述了调度算法的基本概念和重要性,随后深入探讨了几种主要的调度算法,包括先来先服务、短作业优先、轮转与优先级调度等。通过引用最新的科研数据和实验证据,文章揭示了不同调度算法的性能表现和适用场景。此外,本文还讨论了现代操作系统中调度算法面临的挑战和未来的发展方向,强调了在多核处理器和云计算环境下调度策略的复杂性。最后,通过案例分析,展示了如何在实际系统中应用这些理论知识,以及在设计高效调度系统时需要考虑的因素。
|
10天前
|
机器学习/深度学习 传感器 自动驾驶
【机器学习】机器学习赋能交通出行:智能化实践与创新应用探索
【机器学习】机器学习赋能交通出行:智能化实践与创新应用探索
18 0
|
12天前
|
机器学习/深度学习 人工智能 供应链
|
14天前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
17天前
|
机器学习/深度学习 分布式计算 算法
在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)
【6月更文挑战第28天】在机器学习项目中,选择算法涉及问题类型识别(如回归、分类、聚类、强化学习)、数据规模与特性(大数据可能适合分布式算法或深度学习)、性能需求(准确性、速度、可解释性)、资源限制(计算与内存)、领域知识应用以及实验验证(交叉验证、模型比较)。迭代过程包括数据探索、模型构建、评估和优化,结合业务需求进行决策。
22 0