机器学习测试笔记（18）——降维（下）

2023-02-13 126 发布于内蒙古

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

性能测试 PTS，5000VUM额度

简介： 机器学习测试笔记（18）——降维（下）

3.非负矩阵分解

3.1 概念

非负矩阵分解(Non-Negative Matrix Factorization : NMF)。

矩阵分解：一个矩阵A分解为A=B₁*B₂*…*B_n。

非负矩阵分解：矩阵分解,矩阵A、 B₁…B_n中元素均为非负。

3.2 代码

通过fromsklearn.decomposition.NMF方法来实现。

from sklearn.decomposition import NMF
def nmf_for_face():
        faces =datasets.fetch_lfw_people(min_faces_per_person=20,resize=0.8)
#用NMF模型进行模拟
       X_train,X_test,y_train,y_test =train_test_split(faces.data/255,faces.target,random_state=62)
        mlp =MLPClassifier(hidden_layer_sizes=[100,100],random_state=62,max_iter=400)
        nmf = NMF(n_components=105,random_state=62).fit(X_train)#NMF中n_components不支持浮点数
        X_train_nmf =nmf.transform(X_train)
        X_test_nmf =nmf.transform(X_test)
        print("NMF处理后数据形态:{}".format(X_train_nmf.shape))
#用神经网络模型进行训练
       mlp.fit(X_train_nmf,y_train)
        print("NMF训练后模型识别准确率:{:.2%}".format(mlp.score(X_test_nmf,y_test)))

输出

NMF处理后数据形态:(2267,105)
NMF训练后模型识别准确率:56.22%

NMF的效果比PCA略差

4. 线性判别分析

4.1 概念

线性判别分析(Linear DiscriminantAnalysis: LDA)。是有监督降维，寻找降维矩阵，投影后同类数据尽可能聚集在一起，不同类分开明显。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”

4.2 代码

通过sklearn.discriminant_analysis.LinearDiscriminantAnalysis方法来实现。

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier,NeighborhoodComponentsAnalysis
from sklearn.pipeline import make_pipeline
def my_LinearDiscriminantAnalysis():
n_neighbors = 3
random_state = 0
    # 加载数字数据集
X, y =datasets.load_digits(return_X_y=True)
    # 分离测试/训练集
X_train, X_test, y_train,y_test =
train_test_split(X, y,test_size=0.5, stratify=y,random_state=random_state)
dim = len(X[0])
n_classes =len(np.unique(y))
    #用PCA将维数降为2
pca = make_pipeline(StandardScaler(),PCA(n_components=2,random_state=random_state)
# 使用线性判别分析将维度缩减为2
lda =make_pipeline(StandardScaler(),LinearDiscriminantAnalysis(n_components=2)
# 使用最近邻分类器来评估这些方法
knn =KNeighborsClassifier(n_neighbors=n_neighbors)
    # 列出要比较的方法
dim_reduction_methods =[('PCA', pca), ('LDA', lda)]
for i, (name, model) inenumerate(dim_reduction_methods):
plt.figure()
       # 拟合方法的模型
model.fit(X_train,y_train)
       # 在嵌入的训练集上拟合最近邻分类器
knn.fit(model.transform(X_train), y_train)
       # 计算嵌入测试集的最近邻精度
acc_knn =knn.score(model.transform(X_test), y_test)
       # 使用拟合模型在二维中嵌入数据集
X_embedded =model.transform(X)
       # 绘制投影点并显示评估分数
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y, s=30, cmap='Set1')
plt.title("{}, KNN(k={})\nTest accuracy = {:.2f}".format(name, n_neighbors,acc_knn))
plt.show()

5. LDA与PCA比较

5.1 LDA与PCA比较

思考方向	PCA	LDA
思想	从协方差角度出发	从分类标签角度出发
学习模型	无监督	有监督
降维后可用维度	最大可选择全部维度	C-1维，C表示标签数。与原始维度无关