备案控制台

开发者社区人工智能文章正文

【机器学习算法】4、降维算法之PCA(深入理解与实践)（一）

2023-05-17 191

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【机器学习算法】4、降维算法之PCA(深入理解与实践)（一）

简介

一般情况下，向量的各个分量之间可能存在一定的相关性。直接将向量送入机器学习算法中处理效率会很低，也会影响算法的精度。为了可视化显示数据，人们需要把向量变换到低维空间后再送入算法中进行处理。

目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据，之所以使用降维后的数据表示是因为在原始的高维数据空间中，包含冗余信息以及噪声信息，在实际应用例如图像识别中的误差，降低了精度；而通过降维处理，可以减少冗余信息造成的误差，提高模型的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。

在很多算法中，降维算法只是数据预处理的一部分，接下来讨论的主要是对于PCA降维算法的理论分析。

PCA算法的流程

维度灾难的几何解释

如图所示的超几何图像，数据处于D维空间中，r=1

通过上式可以看出，当空间维度D趋近于无穷大时，空间内的超球体的体积趋近于0，也就是说样本基本上都落于绿色的区域内，同理看右侧图：

同样可以看出，当数据维度D趋近于无穷大的时候，数据也落在绿色的区域内，也就是说深蓝色区域中基本上是空的，也就是说，当数据维度为很高的D维是，中间很多一部分是空的，导致数据维度很高，但是数据是稀疏的，也就造成了维度灾难。

PCA算法具体步骤的推导

1、数据中心化的解释

假设数据为如下定义的形式：

样本均值(Sample Mean)和样本方差(Sample Co-variance)：

对于样本方差，继续进行推导可以得到：

等式的右边的前半部分

同理，等式右边的后半部分

于是可以的到样本协方差为：

其中

2、最大投影方差的解释

已知Sample Mean和Sample Co-variance分别为：

所谓的投影方差最大化，意思就是样本在低维空间尽可能地分离，从图2可以看出来，样本在基向量u1上投影得到的结果对于分类而言更容易分出结果，而在u2上的话很容易造成数据在低维空间的重合而形成本来没有的线性关系，造成有用的信息被清除，进而影响结果。

通过图3可以得到单个样本投影的方差为：

不妨设

可以看出投影方差最大化其实就是一个带约束的最优化问题，假设拉格朗日函数为：

对拉格朗日函数关于u1求导可以得到如下的等式：

于是便找到了最大投影向量和特征值的对应关系，至此推导完毕。

3、最小重构距离的解释

所谓的重构距离就是降维后的数据重新映射到原来的维度后与原始的数据点尽可能地接近，让损失地信息尽可能小。

已知基向量u和中心化后地数据，于是重构向量可以得到；

所以可以得到重构距离为：

可以看出和最大投影方差一样依然是一个带约束的优化问题，通过构造拉格朗日函数和求得可以得到：

于是找到对重构距离影响最小的(P-q)个维度。得证。

4、维度取舍问题的解释

依据就是方差，方差越大的特征，特征中的数据分布的离散程度就越大，特征所包含的信息量也就越大；反之，如果特征中的数据方差比较小，数据特征中包含的数据信息了也比较小；而我们设计模型时就是要求在数据维度一定的同时特征中包含的信息越多越好，而特征值越大所包含的数据分布信息越多，所以保留特征值大的队列。

文章标签：

机器学习/深度学习

数据采集

数据可视化

数据中心

算法

关键词：

人工智能平台 PAI算法

机器学习算法

人工智能平台 PAI实践

算法实践

人工智能平台 PAI算法实践

5i77ajz5u7ji6

目录

相关文章

Echo_Wish

|

1月前

|

机器学习/深度学习人工智能算法

机器学习算法的优化与改进：提升模型性能的策略与方法

机器学习算法的优化与改进：提升模型性能的策略与方法

Echo_Wish

266 13 13

机器学习算法的优化与改进：提升模型性能的策略与方法

楠竹11

|

1月前

|

机器学习/深度学习算法网络安全

CCS 2024：如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

在2024年CCS会议上，苏黎世联邦理工学院的研究人员提出，当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施（HAMP、RelaxLoss、SELENA、DFKD和SSL），发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳，而强大的差分隐私基线则提供了更好的隐私-效用权衡。

楠竹11

52 14 15

Deephub

|

2月前

|

机器学习/深度学习人工智能算法

深入解析图神经网络：Graph Transformer的算法基础与工程实践

Graph Transformer是一种结合了Transformer自注意力机制与图神经网络（GNNs）特点的神经网络模型，专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术，实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉，显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景，并通过图书推荐系统的实例，展示了其在实际问题解决中的强大能力。

Deephub

271 30 31

穿过生命散发芬芳

|

2月前

|

编解码机器人测试技术

技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人

Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型，支持多种语言，适用于多模态应用开发。通过PAI和LLaMA Factory框架，用户可以轻松微调Qwen2-VL模型，快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程，帮助开发者高效实现定制化多模态应用。

穿过生命散发芬芳

838 13 13

pai_rec_coder

|

2月前

|

算法

PAI下面的gbdt、xgboost、ps-smart 算法如何优化？

设置gbdt 、xgboost等算法的样本和特征的采样率

pai_rec_coder

91 2 2

梦笔生花伟

|

2月前

|

存储算法

深入解析PID控制算法：从理论到实践的完整指南

前言大家好，今天我们介绍一下经典控制理论中的PID控制算法，并着重讲解该算法的编码实现，为实现后续的倒立摆样例内容做准备。众所周知，掌握了 PID ，就相当于进入了控制工程的大门，也能为更高阶的控制理论学习打下基础。在很多的自动化控制领域。都会遇到PID控制算法，这种算法具有很好的控制模式，可以让系统具有很好的鲁棒性。基本介绍 PID 深入理解（1）闭环控制系统：讲解 PID 之前，我们先解释什么是闭环控制系统。简单说就是一个有输入有输出的系统，输入能影响输出。一般情况下，人们也称输出为反馈，因此也叫闭环反馈控制系统。比如恒温水池，输入就是加热功率，输出就是水温度；比如冷库，

梦笔生花伟

515 15 15

请看我回答~

|

2月前

|

机器学习/深度学习人工智能算法

人工智能浪潮下的编程实践：构建你的第一个机器学习模型

在人工智能的巨浪中，每个人都有机会成为弄潮儿。本文将带你一探究竟，从零基础开始，用最易懂的语言和步骤，教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式，也不必担心编程难题，只需跟随我们的步伐，一起探索这个充满魔力的AI世界。

请看我回答~

72 12 12

技术内容小助手

|

1月前

|

人工智能容灾 Serverless

AI推理新纪元，PAI全球化模型推理服务的创新与实践

本次分享主题为“AI推理新纪元，PAI全球化模型推理服务的创新与实践”，由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术，PAI平台实现了30%以上的成本降低和显著性能提升，确保全球客户的业务稳定运行并支持异地容灾，目前已覆盖16个地域，拥有10万张显卡的推理集群。

技术内容小助手

113 0 0

Deephub

|

2月前

|

机器学习/深度学习存储运维

分布式机器学习系统：设计原理、优化策略与实践经验

本文详细探讨了分布式机器学习系统的发展现状与挑战，重点分析了数据并行、模型并行等核心训练范式，以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性，旨在提供一套全面的技术解决方案，以应对超大规模模型训练中的计算、存储及通信挑战。

Deephub

118 4 4

龙大吉

|

3月前

|

机器学习/深度学习算法数据挖掘

C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出

本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用，以及与Python等语言结合使用的案例，展望了其未来发展的挑战与机遇。

龙大吉

77 1 1

热门文章

最新文章

图解前向、反向传播算法，一看就懂！

利用SVM(支持向量机)分类算法对鸢尾花数据集进行分类

通过算法备案之后就万事大吉了么？

算法备案全流程攻略：保姆级教程

C 408—《数据结构》算法题基础篇—链表（下）

使用贪心算法解决最小生成树问题

C 408—《数据结构》算法题基础篇—链表（上）

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

【算法合规新时代】企业如何把握“清朗·网络平台算法典型问题治理”专项行动？

Java线程调度揭秘：从算法到策略，让你面试稳赢！

基于Python_opencv人脸录入、识别系统（应用dlib机器学习库）（下）

基于Python_opencv人脸录入、识别系统（应用dlib机器学习库）（上）

深入Scikit-learn：掌握Python最强大的机器学习库

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉和机器学习库，它提供了大量的函数和工具，用于处理图像和视频数据。

介绍文本分类的基本概念、常用方法以及如何在Python中使用机器学习库进行文本分类

探索Scikit-learn：机器学习库的入门与进阶

深度解析Python中的机器学习库：Scikit-learn

【Python机器学习专栏】Python环境下的机器学习库概览

探秘scikit-learn：机器学习库的核心功能详解

【python】Python大豆特征数据分析 [机器学习版一]（代码+论文）【独一无二】

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

微博机器学习平台架构和实践

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

使用Swing算法实现商品推荐

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型