sklearn调包侠之PCA降维

简介: PCAPCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。实战——人脸识别数据导入该数据集可通过sklearn进行下载。
img_ef1e3e505452ab5c2a9d0a684675b398.png

PCA

PCA(主成分分析),它是一种维度约减算法,即把高维度数据在损失最小的情况下转换为低纬度数据的算法。

实战——人脸识别

数据导入

该数据集可通过sklearn进行下载。数据集总共包含40位人员的照片,每个人10张照片。通过fetch_olivetti_faces方法下载的图片,进行了处理,人脸会居中,并裁剪为64*64大小。

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import fetch_olivetti_faces
faces = fetch_olivetti_faces()
X = faces.data
y = faces.target
pca

由于数据集样本少(400),特征高(64*64),需要对数据进行降维后,再建立模型。
那到底选择多少主成分合适了?我们这里计算多组主成分,获取数据还原率,如图所示,选择140个主成分,可以保证还原率大于0.95。

from sklearn.decomposition import PCA

candidate_components = range(10, 300, 30)
explained_ratios = []
for c in candidate_components:
    pca = PCA(n_components=c)
    X_pca = pca.fit_transform(X)
    explained_ratios.append(np.sum(pca.explained_variance_ratio_))

plt.figure(figsize=(10, 6), dpi=144)
plt.grid()
plt.plot(candidate_components, explained_ratios)
plt.xlabel('Number of PCA Components')
plt.ylabel('Explained Variance Ratio')
plt.title('Explained variance ratio for PCA')
plt.yticks(np.arange(0.5, 1.05, .05))
plt.xticks(np.arange(0, 300, 20))
img_a7d8c49001b5b8aa9d9da7ae13db9c14.png
切分数据集
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=33)
训练模型

这里使用svm进行模型训练,并使用网格搜索来获取最优参数。

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

param_grid = {'C': [1, 5, 10, 50, 100],
              'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01]}
clf = GridSearchCV(SVC(kernel='rbf', class_weight='balanced'), param_grid)
clf = clf.fit(X_train_pca, y_train)

print(clf.best_params_, clf.best_score_)

# result
# {'C': 5, 'gamma': 0.005} 0.778125
模型评估

最后,对模型进行评估:

clf.best_estimator_.score(X_test_pca, y_test)

# result
# 0.96250000000000002
相关文章
|
SQL 数据可视化 关系型数据库
【大数据】可视化仪表板 - Superset的安装和使用
【大数据】可视化仪表板 - Superset的安装和使用
2274 0
|
4月前
|
机器学习/深度学习 算法 数据可视化
脑机接口(BCI):从信号到交互的工程实践
蒋星熠Jaxonic以“星际旅人”之姿,深耕脑机接口(BCI)工程实践。本文从系统架构、信号处理到解码算法,融合代码示例与可视化,剖析EEG/EMG非侵入式方案的落地挑战。聚焦延迟、准确率与用户体验,在噪声中构建稳定闭环,探索意念交互的可解释性与可靠性,助力极客穿越“噪声星云”,驶向人脑的奇妙行星。(238字)
|
缓存
【POI】导出xls文件报错:The maximum number of cell styles was exceeded. You can define up to 4000 styles in a .xls workbook
使用POI导出xls文件,由于数据过多,导致导出xls报错如下: The maximum number of cell styles was exceeded. You can define up to 4000 styles in a .xls workbook   原因: 代码中创建 HSSFCellStyle cellStyle = hssfWorkbook.createCellStyle(); 次数过多,导致报错。
7110 0
|
SQL 数据库
为什么 SQL 日志文件很大,我应该如何处理?
为什么 SQL 日志文件很大,我应该如何处理?
|
前端开发 PHP
ThinkPHP6布局的方式之模板布局,全局配置方式,模板标签方式,动态方法布局
本文介绍了ThinkPHP6中实现模板布局的三种方式:全局配置方式、模板标签方式和动态方法布局,并通过示例代码展示了如何在项目中应用这些布局方式。
ThinkPHP6布局的方式之模板布局,全局配置方式,模板标签方式,动态方法布局
|
Rust 安全 调度
从零构建梦想操作系统:用Rust语言亲手打造专属内核,你也可以成为系统开发者!
【8月更文挑战第31天】开发操作系统内核虽具挑战,却也充满乐趣。本文将指导你从零开始,使用Rust语言构建一个简单的操作系统内核。首先安装Rust环境和交叉编译工具链,然后创建新项目`my_kernel`。通过修改`Cargo.toml`和编写启动函数,结合串口输出和`multiboot2`库,最终使用QEMU运行内核。此教程旨在帮助你理解Rust在系统开发中的应用,激发深入探索的兴趣。
977 1
|
编解码 安全 芯片
MacOS出现疑难杂症时暴力解决方案
MacBook出现异常发热、风扇狂转、触摸板无响应,数分钟后自动关机。尝试开机显示错误信息。解决方案:重置SMC和NVRAM。重置SMC针对电源管理和散热问题,方法因芯片类型(Apple芯片或T2芯片)不同而异。重置NVRAM适用于Intel芯片的Mac。问题暂时解决,但不确定是否彻底修复。参考苹果官方文档进行操作。
645 1
MacOS出现疑难杂症时暴力解决方案
|
机器学习/深度学习 算法 计算机视觉
多目标跟踪算法(最近邻NN)(全局最近邻GNN)(概率数据关联PDA)(联合概率数据关联JPDA)的学习
多目标跟踪算法(最近邻NN)(全局最近邻GNN)(概率数据关联PDA)(联合概率数据关联JPDA)的学习
多目标跟踪算法(最近邻NN)(全局最近邻GNN)(概率数据关联PDA)(联合概率数据关联JPDA)的学习
|
机器学习/深度学习 数据采集 算法
KNN算法原理及应用(一)
**KNN算法**是一种监督学习的分类算法,适用于解决分类问题。它基于实例学习,无需训练过程,当新样本到来时,通过计算新样本与已有训练样本之间的距离,找到最近的K个邻居,然后根据邻居的类别进行多数表决(或加权表决)来预测新样本的类别。K值的选择、距离度量方式和分类决策规则是KNN的关键要素。KNN简单易懂,但计算复杂度随样本量增加而增加,适用于小规模数据集。在鸢尾花数据集等经典问题上表现良好,同时能处理多分类任务,并可应用于回归和数据预处理中的缺失值填充。
KNN算法原理及应用(一)
|
C++
[Qt5] VS环境下实现Qt5两个窗口相互切换
[Qt5] VS环境下实现Qt5两个窗口相互切换
315 0