【阿旭机器学习实战】【23】特征降维实战---人脸识别降维建模,并选出最有模型进行未知图片预测

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 【阿旭机器学习实战】【23】特征降维实战---人脸识别降维建模,并选出最有模型进行未知图片预测

PCA特征降维实战—人脸识别


问题描述–人脸识别


通过训练一批人的人脸数据,然后从其他地方获取一种图片让模型认识这个图片代表的谁?


判断人脸需要用监督学习,人脸的维度过高,监督学习判断的时候就会出现两个问题:算法效率会非常低和算方法的精准度也会降低。


我们在进行监督学习之前要进行特征降维,然后使用降维后的特征进行建模,以提高算法效率与准确度。


1. 导入数据并查看数据


import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import datasets
# 导入人脸数据
faces = datasets.fetch_lfw_people(min_faces_per_person=70,
                                  slice_=(slice(0,250,None),slice(0,250,None)),resize=1)
# 这个函数首先会去本地缓存地址中去加载数据,如果没有缓存,去datasets中加载并缓存到本地
dir(faces)#查看数据的属性
• 1
['DESCR', 'data', 'images', 'target', 'target_names']
# 各个属性的维度
print(faces.data.shape)
print(faces.images.shape)
print(faces.target.shape)
print(faces.target_names.shape)

(1288, 62500)
(1288, 250, 250)
(1288,)
(7,)


从上面数据可以看出有1288条数据,图片大小为250 * 250,像素点个数为 250 * 250 = 62500,也就是特征有62500个,一共有7个类型的标签(人)。


data = faces.data
target = faces.target
target_names = faces.target_names
imgs = faces.images
# 查看7个人的名字
target_names
array(['Ariel Sharon', 'Colin Powell', 'Donald Rumsfeld', 'George W Bush',
       'Gerhard Schroeder', 'Hugo Chavez', 'Tony Blair'], dtype='<U17')
plt.imshow(imgs[100],cmap="gray")
• 1
<matplotlib.image.AxesImage at 0x1fbb98e0c18>



2. 划分训练数据和测试数据


from sklearn.model_selection import train_test_split,cross_val_score
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.05)


3. PCA降维


from sklearn.decomposition import PCA

# 提取300个特征数据
pca = PCA(n_components=300)
# 训练
pca.fit(x_train)
PCA(copy=True, iterated_power='auto', n_components=300, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)
# 将训练特征转换到PCA特征空间
x_train_pca = pca.transform(x_train)
x_train.shape,x_train_pca.shape
• 1
((1223, 62500), (1223, 300))
• 1


我们可以看到,特征数目从62500直接减少为了300。直接减少了好几个量级。


x_test.shape
• 1
(65, 62500)

# 对测试特征进行降维
x_test_pca = pca.transform(x_test)# 【注意】这里不需要再训练,直接转化


4. 用监督学习相关算法,来降维后的特征进行训练并预测


from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB


4.1对各个分类模型算法进行交叉验证,寻求最好的那个模型


# KNN模型
knn = KNeighborsClassifier()
cross_val_score(knn,x_train_pca,y_train)
• 1
array([0.46585366, 0.47911548, 0.44581281])

# SGD模型
sgd = SGDClassifier()
cross_val_score(sgd,x_train_pca,y_train)
• 1
array([0.53170732, 0.51351351, 0.49014778])

# 决策树模型
dt = DecisionTreeClassifier()
• 1
• 2
cross_val_score(dt,x_train_pca,y_train)
• 1
array([0.27560976, 0.28501229, 0.29802956])

# 朴素贝叶斯模型
g_NB = GaussianNB()
• 1
• 2
cross_val_score(g_NB,x_train_pca,y_train)
• 1
array([0.50731707, 0.47911548, 0.46305419])

# SVC模型
svc = SVC(kernel="linear")
• 1
• 2
cross_val_score(svc,x_train_pca,y_train)
• 1
array([0.77073171, 0.77641278, 0.74137931])



经过上面的交叉验证发现,SVC的linear核函数模型的预测效果最好,下面使用SVC进行建模。


svc.fit(x_train_pca,y_train)


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
y_ = svc.predict(x_test_pca)
• 1
y_,y_test

(array([6, 6, 3, 3, 2, 1, 1, 6, 3, 3, 1, 3, 3, 3, 1, 4, 3, 4, 3, 6, 0, 1,
        6, 3, 2, 4, 3, 2, 3, 1, 3, 3, 3, 6, 1, 4, 1, 3, 1, 3, 3, 6, 5, 2,
        4, 3, 3, 1, 2, 3, 3, 0, 6, 6, 6, 0, 4, 6, 3, 3, 0, 6, 6, 4, 0],
       dtype=int64),
 array([4, 6, 3, 3, 3, 1, 1, 6, 3, 3, 1, 3, 3, 3, 1, 4, 3, 4, 1, 4, 0, 1,
        6, 3, 2, 5, 3, 3, 3, 1, 3, 3, 3, 6, 1, 4, 1, 3, 1, 3, 3, 6, 5, 0,
        4, 3, 6, 3, 2, 2, 3, 0, 6, 6, 6, 0, 4, 4, 2, 3, 0, 6, 6, 4, 0],
       dtype=int64))
svc.score(x_test_pca,y_test)
• 1
0.8153846153846154
• 1
from sklearn.metrics import classification_report

# 模型结果评估
print(classification_report(y_,y_test))
             precision    recall  f1-score   support
          0       0.83      1.00      0.91         5
          1       0.90      0.90      0.90        10
          2       0.50      0.40      0.44         5
          3       0.87      0.83      0.85        24
          4       0.67      0.86      0.75         7
          5       0.50      1.00      0.67         1
          6       0.91      0.77      0.83        13
avg / total       0.82      0.82      0.81        65


4.2 预测结果展示


画出65个人的人脸图片,并且标注真正是谁,预测的名字是谁


plt.figure(figsize=(5*3,13*4))
for i in range(65):
    axes = plt.subplot(13,5,i+1)
    axes.imshow(x_test[i].reshape((250,250)),cmap="gray")
    axes.axis("off")
    axes.set_title("True:%s\nPre:%s"%(target_names[y_test[i]],target_names[y_[i]]))


4.3 下载照片并使用模型进行预测


从网上下载一个Bush或者其他人的图片,然后处理成符合我们规定灰度级图片,用我们模型来预测该图片是谁


bush = plt.imread("./data/bush.jpg")
bush.shape
• 1
(625, 500, 3)
• 1
plt.imshow(bush)
• 1



把图片灰度化


bush1 = np.dot(bush,[0.299,0.587,0.114])
• 1
plt.imshow(bush1,cmap="gray")


# 对行进行切片,将图片大小变为250 * 250,才可以用上述模型进行预测
bush2 = bush1[50:550][::2,::2]
plt.imshow(bush2)
# 使用PCA对图片进行特征转换
bush_pca = pca.transform(bush2.reshape((1,-1)))
• 1
• 2
name = svc.predict(bush_pca)

target_names[name]
• 1
array(['George W Bush'], dtype='<U17')


模型对照片的预测结果为George W Bush,与实际情况一致。

相关文章
|
3月前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
160 7
|
5月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
250 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
14天前
|
机器学习/深度学习 编解码 计算机视觉
MATLAB实现人脸识别检测与标出图片中人脸
MATLAB实现人脸识别检测与标出图片中人脸
68 0
|
3月前
|
存储 机器学习/深度学习 缓存
特征平台PAI-FeatureStore的功能列表
本内容介绍了阿里云PAI FeatureStore的功能与使用方法,涵盖离线和在线特征管理、实时特征视图、行为序列特征视图、FeatureStore SDK的多语言支持(如Go、Java、Python)、特征生产简化方案、FeatureDB存储特性(高性能、低成本、及时性)、训练样本导出以及自动化特征工程(如AutoFE)。同时提供了相关文档链接和技术细节,帮助用户高效构建和管理特征工程。适用于推荐系统、模型训练等场景。
90 2
|
4月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
9月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
829 3
|
3月前
PAI-Rec推荐平台对于实时特征有三个层次
PAI-Rec推荐平台针对实时特征有三个处理层次:1) 离线模拟反推历史请求时刻的实时特征;2) FeatureStore记录增量更新的实时特征,模型特征导出样本准确性达99%;3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。
92 0
|
5月前
|
存储 分布式计算 MaxCompute
使用PAI-FeatureStore管理风控应用中的特征
PAI-FeatureStore 是阿里云提供的特征管理平台,适用于风控应用中的离线和实时特征管理。通过MaxCompute定义和设计特征表,利用PAI-FeatureStore SDK进行数据摄取与预处理,并通过定时任务批量计算离线特征,同步至在线存储系统如FeatureDB或Hologres。对于实时特征,借助Flink等流处理引擎即时分析并写入在线存储,确保特征时效性。模型推理方面,支持EasyRec Processor和PAI-EAS推理服务,实现高效且灵活的风险控制特征管理,促进系统迭代优化。
117 6
|
12月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
11月前
|
存储 机器学习/深度学习 人工智能
人工智能平台PAI使用问题之特征平台是否可以与Java进行对接
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI