机器学习测试笔记（18）——降维（上）

2023-02-13 126 发布于内蒙古

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习测试笔记（18）——降维（上）

1.降维解决能问题

降维解决能问题：

缓解维度灾难问题；
压缩数据的同时让信息损失最小化；
理解低维度更容易。

有些特征的意义不大，可以通过降维来解决

2. 主生成分析

2.1 概念

主生成分析(Principal CpmponentAnalysis:PCA)。无监督线性降维，用于数据压缩、消除冗余和消除噪音。

对图书价格关注程度不是很重要，可以通过成分1——成分2进行降维。

映射到蓝色后方差最小。

2.2数学意义

X= [[x₁₁x₁₂ x₁₃…x_1p],

[x₂₁ x₂₂ x₂₃…x_2p],

…

[x_n1 x_n2 x_n3…x_np]]

= [x₁ x₂ x₃…x_p]

其中xj=[x_1j x_2j…x_nj] ( j=1,2,3,…,p)

主成分分析就是将P个观测变量综合成为P个新的变量(综合变量)，即:

F₁ =a₁₁x₁+a₁₂x₂+…+a_1px_p

F₂ =a₂₁x1+a₂₂x₂+…+a_2px_p

…

F_p =a_p1x1+a_p2x₂+…+a_ppx_p

简写

F_j =a_j1x₁+a_j2x₂+…+a_jpx_p(j=1,2,3,…,p )

F_i与 F_j互不相关(i j,i,j= 1,2,3,…,p )

F₁的方差 > F₂的方差> … > F_p的方差

称为第一主成分F₁，为第二主成分F₂，…第p主成分F_p

2.3代码

通过from sklearn.decomposition.PCA方法来实现。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
#对红酒降维PCA可视化
def dimension_reduction_for_wine_pca():
        scaler =StandardScaler()
        wine =datasets.load_wine()
        X = wine.data
        y = wine.target
#由于是无监督学习，所以尽对X进行拟合
        X_scaled =scaler.fit_transform(X)
# 打印处理后的数据形态
        print("处理后的数据形态:",X_scaled.shape)

输出

处理后的数据形态: (178, 13)

降维前有178个样本13个特征。

# 进行PCA处理
    pca = PCA(n_components=2)#降到2类
    pca.fit(X_scaled)
    X_pca =pca.transform(X_scaled)
# 打印主成分提取后的数据形态
print("主成分提取后的数据形态:", X_pca.shape)

输出

主成分提取后的数据形态: (178, 2)

降维前13个特征减少到2个。

# 将3个分类主成分提取出来
x0 = x_pca[wine.target==0]
    x1 = x_pca[wine.target==1]
    x2 = x_pca[wine.target==2]
#绘制散点图
   plt.scatter(x0[:,0],x0[:,1],c='r',s=60,edgecolor='k')
   plt.scatter(x1[:,0],x1[:,1],c='g',s=60,edgecolor='k')
   plt.scatter(x2[:,0],x2[:,1],c='b',s=60,edgecolor='k')
#设置图注
   plt.legend(wine.target_names,loc='best')
    plt.xlabel('component 1')
    plt.ylabel('component 2')
    plt.show()

#使用主成分绘制热度图
   plt.matshow(pca.components_,cmap='plasma')
#纵轴为主成分
   plt.yticks([0,1],['component 1','component 2'])
    plt.colorbar()
#横轴为原始特征向量
   plt.xticks(range(len(wine.feature_names)),wine.feature_names,rotation=60,ha='left')
    plt.show()

-0.5~0.4，设计到13个特性，数字为正数，与主特征正相关；否则负相关。

2.4特征提取

from sklearn.neural_network import MLPClassifier
#特征提取
def pca_for_face():
        faces = datasets.fetch_lfw_people(min_faces_per_person=20,resize=0.8)
        image_shape =faces.images[0].shape
#把照片打印出来
        fig, axes =plt.subplots(3,4,figsize=(12,9),subplot_kw={'xticks':(),'yticks':()})
for target,image,ax inzip(faces.target,faces.images,axes.ravel()):
                ax.imshow(image,cmap=plt.cm.gray)
               ax.set_title(faces.target_names[target])
        plt.show()

注意：第一次运行前，可以从第三方网站下载到C:\Users\\scikit_learn_data\lfw_home。可以加快速度。

#用神经网络模型进行训练
       X_train,X_test,y_train,y_test = train_test_split(faces.data/255,faces.target,random_state=62)
        mlp =MLPClassifier(hidden_layer_sizes=[100,100],random_state=62,max_iter=400)
       mlp.fit(X_train,y_train)
print("模型识别准确率:{:.2%}".format(mlp.score(X_test,y_test)))
#使用白化功能处理人脸数据
        pca =PCA(whiten=True,n_components=0.9,random_state=62).fit(X_train)
        X_train_whiten =pca.transform(X_train)
        X_test_whiten =pca.transform(X_test)
print("白化后数据形态:{}".format(X_train_whiten.shape))
#使用白化后的神经网络训练
       mlp.fit(X_train_whiten,y_train)
print("白化后模型识别准确率:{:.2%}".format(mlp.score(X_test_whiten,y_test)))

输出

模型识别准确率:53.84%
白化后数据形态:(2267, 105)
白化后模型识别准确率:57.14%

如此快的时间内，准确率达到53.84%已经很不错了。

机器学习测试笔记（18）——降维（上）

1.降维解决能问题

2. 主生成分析

2.1 概念

2.2数学意义

2.3代码

2.4特征提取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习测试笔记（18）——降维（上）

1.降维解决能问题

2. 主生成分析

2.1 概念

2.2数学意义

2.3代码

2.4特征提取

热门文章

最新文章

相关课程

相关电子书

相关实验场景