Part9__机器学习实战学习笔记__PCA-阿里云开发者社区

Part9__机器学习实战学习笔记__PCA

2022-01-26 1595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文对PCA算法原理进行简要的介绍，然后在iris数据集上面测试算法的效果。

Step By Step

1、算法原理简介
2、Code Sample
3、优缺点

一、算法原理简介

降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

PCA使用方差作为信息量的衡量标准，并用特征值分解来找出空间V。

二、Code Sample

2.1 Iris特征数据可视化

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target

x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5

plt.figure(2, figsize=(8, 6))
plt.clf()

# Plot the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1, edgecolor="k")
plt.xlabel("Sepal length")
plt.ylabel("Sepal width")

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

The Result

图片.png

通过图形可以看出：Sepal length 和 Sepal width两个特征实际还是有很强的关联性的。

2.2 PCA处理


import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

# import some data to play with
iris = datasets.load_iris()
# X = iris.data[:, :2]  # we only take the first two features.
y = iris.target
# plot the first three PCA dimensions
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
X_reduced = PCA(n_components=3).fit_transform(iris.data)
ax.scatter(
    X_reduced[:, 0],
    X_reduced[:, 1],
    X_reduced[:, 2],
    c=y,
    cmap=plt.cm.Set1,
    edgecolor="k",
    s=40,
)
ax.set_title("First three PCA directions")
ax.set_xlabel("1st eigenvector")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("2nd eigenvector")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("3rd eigenvector")
ax.w_zaxis.set_ticklabels([])

plt.show()

The Result

图片.png

通过图形可以看出，通过PCA提取三个特征对图形的分类效果交集明显降低了很多。

2.3 使用MLE算法选择降维维度

pca = PCA(n_components = 'mle')
pca.fit(iris.data)
print(pca.explained_variance_ratio_)
print(pca.explained_variance_)
print(pca.n_components_)

The Result

[0.92461872 0.05306648 0.01710261]
[4.22824171 0.24267075 0.0782095 ]
3

数据的第一个投影特征的方差占比：92.46%，MLE算法保留了3个特征。

三、优缺点

优点：

降低数据的复杂性，识别最重要的多个特征；

缺点：

不一定需要，且有可能损失有用信息；

适用数据类型：

数值型数据。

Part9机器学习实战学习笔记PCA

Step By Step

一、算法原理简介

二、Code Sample

三、优缺点

更多参考

云服务技术课堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Part9__机器学习实战学习笔记__PCA

Step By Step

一、算法原理简介

二、Code Sample

三、优缺点

更多参考

云服务技术课堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景

Part9机器学习实战学习笔记PCA