100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解-阿里云开发者社区

100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解

2022-12-10 179

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解

数学概念

方差：用来衡量随机变量与其数学期望（均值）之间的偏离程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。

协方差：度量两个随机变量关系的统计量，协方差为0的两个随机变量是不相关的。

协方差矩阵：在统计学与概率论中，协方差矩阵的每个元素是各个向量元素之间的协方差。特殊的，矩阵对角线上的元素分别是向量的方差。

PCA原理

主成分分析法（Principal Component Analysis）是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法，它借助正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分（PC），主成分是旧特征的线性组合。

PCA的本质就是找一些投影方向，使得数据在这些投影方向上的方差最大，而且这些投影方向是相互正交的。这其实就是找新的正交基的过程，计算原始数据在这些正交基上投影的方差，方差越大，就说明在对应正交基上包含了更多的信息量。如下图，第一个 PC 为 c1 所在的轴，第二个PC 为 c2 所在的轴，第三个 PC 为与平面正交的轴。我们仅保留一定数量的主成分来解释原始数据集的方差，而忽略其余部分。

PCA常用于高维数据的降维、数据噪音消除、图像压缩、特征脸等等。

图像压缩

PCA公式推导

1.假设为维随机变量，其均值为，协方差矩阵为。

考虑由维随机变量到维随机变量的线性变换

3.主成分有以下性质：

4.样本主成分分析就是基于样本协方差矩阵的主成分分析。

给定样本矩阵

5.主成分分析方法主要有两种，可以通过相关矩阵的特征值分解或样本矩阵的奇异值分解进行。

PCA算法流程

scikit-learn中PCA的使用方法

调用

sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)

sklearn.decomposition.PCA 参数速查手册文字版

PCA 的使用简单的离谱，一般指定n_components即可，如果设置为整数，说明要保留的主成分数量。如果将其设置为小数，则说明降维后的数据能保留的信息。

上面提到主成分分析方法主要有两种，可以通过相关矩阵的特征值分解或样本矩阵的奇异值分解进行。scikit-learn库的PCA使用的就是奇异值分解方法，通过svd_solver参数指定：

randomized：适用于数据量大，数据维度多同时主成分数目比例又较低的 PCA 降维

full：传统意义上的 SVD，使用了 scipy 库对应的实现

arpack：直接使用 scipy 库的 sparse SVD 实现，和 randomized 的适用场景类似

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.decomposition import PCA
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=10000, n_features=3, centers=[[3, 3, 3], [0, 0, 0], [1, 1, 1], [2, 2, 2]],
                  cluster_std=[0.2, 0.1, 0.2, 0.2], random_state=9)
fig = plt.figure()
plt.scatter(X_new[:, 0], X_new[:, 1], marker='o')
plt.show()

# 降维到二维
pca = PCA(n_components=2)
pca.fit(X)
# 输出特征值
print(pca.explained_variance_)
输出特征向量
print(pca.components_)
# 降维后的数据
X_new = pca.transform(X)
print(X_new)
fig = plt.figure()
plt.scatter(X_new[:, 0], X_new[:, 1], marker='o')
plt.show()

这样我们就实现了三维到二维的转换，可以把结果可视化：

PCA算法优缺点

PCA算法优点

1，仅仅需要以方差衡量信息量，不受数据集以外的因素影响

2，各主成分之间正交，可消除原始数据成分间的相互影响的因素

3，计算方法简单，主要运算时特征值分解，易于实现

4，它是无监督学习，完全无参数限制的。

PCA算法缺点

1，主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强

2，方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解

数学概念

PCA原理

PCA公式推导

PCA算法流程

scikit-learn中PCA的使用方法

调用

PCA算法优缺点

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解

数学概念

PCA原理

PCA公式推导

PCA算法流程

scikit-learn中PCA的使用方法

调用

PCA算法优缺点

热门文章

最新文章

相关课程

相关电子书

相关实验场景