python svm pca实践(一)

简介: 好久没写博客了 这里主要用python的sklearn包,来进行简单的svm的分类和pca的降维 svm是常用的分类器,其核心是在分类的时候找到一个最优的超平面,使得所有的样本与超平面之间的距离达到最小。

好久没写博客了
这里主要用python的sklearn包,来进行简单的svm的分类和pca的降维
svm是常用的分类器,其核心是在分类的时候找到一个最优的超平面,使得所有的样本与超平面之间的距离达到最小。
这里写图片描述
pca是常用的一种降维的方法,其核心是对去中心化后的数据,求得协方差矩阵,再对协方差矩阵进行特征分解,将最大的几个特征值作为这个样本的的新特征,达到降低数据特征维度的效果
这里写图片描述
这里用sklearn的digits数据集作为演示数据集

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# ***use seaborn plotting style defaults
import seaborn as sns; sns.set()

from sklearn import decomposition
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits


#********************* KEY IMPORT OF THIS LECTURE********************************
from sklearn import svm


# loading handwritten digits
dig_data = load_digits()
X = dig_data.data
# y: the values of the digits, or "ground truth"
y = dig_data.target
dig_img = dig_data.images
print(type(X), X.dtype, X.shape)
print(type(dig_img), dig_img.dtype, dig_img.shape)
print(type(y), y.dtype, y.shape)

先导入所需要的包,并下载所需要的数据集
这里主要用到digits数据集中的.data,.target,.images属性
.data 为数据集的图像数据,用有1797个数据以一维的形式呈现,每个数据集的长度为64
.target为数据集的标签数据
.image位数据以8x8的形式呈现

dig_data = load_digits()
X = dig_data.data
y = dig_data.target
# This is basically each array in X
# getting reshaped into (8, 8).
dig_img = dig_data.images

print(type(X), X.dtype, X.shape)
print(type(y), y.dtype, y.shape)

select_idx = 2
# select_idx = 5

# ********************************Separating training data from testing data****************
Xtrain = np.delete(X, select_idx, axis = 0)
ytrain = np.delete(y, select_idx)

# if you don't do .reshape(1, -1), you get a warning.
# B/c the data argument for classifier has to be an array,
# even if it's a one-element array.
Xtest = X[select_idx].reshape(1, -1)
test_img = dig_img[select_idx]
ytest = y[select_idx]

print('Xtrain.shape, ytrain.shape', Xtrain.shape, ytrain.shape)
print('Xtest.shape, ytest.shape', Xtest.shape, ytest.shape)

plt.figure(figsize = (4, 4))
plt.imshow(test_img, cmap = 'binary')
plt.grid('off')
plt.axis('off')


# ************************************* The PCA Section ********************************
n_comp = 10

pca = PCA(n_comp)  

# finding pca axes
pca.fit(Xtrain)
# projecting training data onto pca axes
Xtrain_proj = pca.transform(Xtrain)
# projecting test data onto pca axes
Xtest_proj = pca.transform(Xtest)

print(Xtrain_proj.shape)
print(Xtest_proj.shape)


# ************************************* The SVM Section ********************************

# instantiating an SVM classifier
clf = svm.SVC(gamma=0.001, C=100.)

# apply SVM to training data and draw boundaries.
clf.fit(Xtrain_proj, ytrain)
# Use SVM-determined boundaries to make
# a prediction for the test data point.
clf.predict(Xtest_proj)

将数据集分成训练集和测试集,将索引为2的数据从整个数据集中剔除作为测试数据集,剩下的数据作为训练数据集,
n_comp为PCA降维后取得维数,
用训练集来训练PCA,再用训练集的模型来对训练集和测试集进行降维,
接着用训练集来训练SVM,并对测试集进行预测

def classify_dig_svm(X, y, dig_img, select_idx, n_comp, plot_test_img = False):
    dig_data = load_digits()
    X = dig_data.data
    y = dig_data.target
    dig_img = dig_data.images
    Xtrain = np.delete(X, select_idx, axis = 0)
    ytrain = np.delete(y, select_idx)
    Xtest = X[select_idx].reshape(1, -1)
    test_img = dig_img[select_idx]
    ytest = y[select_idx]
    if plot_test_img == True:
        plt.figure(figsize = (4, 4))
        plt.imshow(test_img, cmap = 'binary')
        plt.grid('off')
        plt.axis('off')

    n_comp = 10

    pca = PCA(n_comp)  


    pca.fit(Xtrain)

    Xtrain_proj = pca.transform(Xtrain)
    # projecting test data onto pca axes
    Xtest_proj = pca.transform(Xtest)

#     print(Xtrain_proj.shape)
#     print(Xtest_proj.shape)


    # ************************************* The SVM Section ********************************

    # instantiating an SVM classifier
    clf = svm.SVC(gamma=0.001, C=100.)

    # apply SVM to training data and draw boundaries.
    clf.fit(Xtrain_proj, ytrain)

    clf.predict(Xtest_proj)
    return clf.predict(Xtest_proj)

X = dig_data.data
y = dig_data.target
n_comp = 30
# select_idx =
# classify_dig_svm(X, y, dig_img, select_idx, n_comp, plot_test_img = False)
counter = 0
tot = 1797
for i in range(tot):
    if classify_dig_svm(X, y, dig_img, i, n_comp, plot_test_img = False) == y[i]:
        counter += 1
rate = counter/tot
print(rate)

classify_dig_svm的方法是对每个数据进行测试看一下训练出来的pca模型和svm模型的准确性
其实效果还好
这里写图片描述

目录
相关文章
|
7天前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
2月前
|
机器学习/深度学习 算法 数据挖掘
线性回归模型的原理、实现及应用,特别是在 Python 中的实践
本文深入探讨了线性回归模型的原理、实现及应用,特别是在 Python 中的实践。线性回归假设因变量与自变量间存在线性关系,通过建立线性方程预测未知数据。文章介绍了模型的基本原理、实现步骤、Python 常用库(如 Scikit-learn 和 Statsmodels)、参数解释、优缺点及扩展应用,强调了其在数据分析中的重要性和局限性。
88 3
|
1月前
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
78 15
|
1月前
|
测试技术 开发者 Python
探索Python中的装饰器:从入门到实践
装饰器,在Python中是一块强大的语法糖,它允许我们在不修改原函数代码的情况下增加额外的功能。本文将通过简单易懂的语言和实例,带你一步步了解装饰器的基本概念、使用方法以及如何自定义装饰器。我们还将探讨装饰器在实战中的应用,让你能够在实际编程中灵活运用这一技术。
44 7
|
1月前
|
存储 缓存 Python
Python中的装饰器深度解析与实践
在Python的世界里,装饰器如同一位神秘的魔法师,它拥有改变函数行为的能力。本文将揭开装饰器的神秘面纱,通过直观的代码示例,引导你理解其工作原理,并掌握如何在实际项目中灵活运用这一强大的工具。从基础到进阶,我们将一起探索装饰器的魅力所在。
|
1月前
|
开发者 Python
Python中的装饰器:从入门到实践
本文将深入探讨Python的装饰器,这一强大工具允许开发者在不修改现有函数代码的情况下增加额外的功能。我们将通过实例学习如何创建和应用装饰器,并探索它们背后的原理和高级用法。
48 5
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
设计模式 缓存 开发者
Python中的装饰器:从入门到实践####
本文深入探讨了Python中强大的元编程工具——装饰器,它能够以简洁优雅的方式扩展函数或方法的功能。通过具体实例和逐步解析,文章不仅介绍了装饰器的基本原理、常见用法及高级应用,还揭示了其背后的设计理念与实现机制,旨在帮助读者从理论到实战全面掌握这一技术,提升代码的可读性、可维护性和复用性。 ####
|
2月前
|
存储 开发者 Python
Python 编程基础:从入门到实践
本文旨在通过深入浅出的方式,向初学者介绍 Python 编程语言的基础概念和实践应用。我们将从 Python 的基本语法开始,逐步过渡到函数、模块的使用,最后以实际项目案例结束,帮助读者构建起完整的编程知识体系。
48 3
|
2月前
|
设计模式 开发者 Python
Python编程中的设计模式应用与实践感悟####
本文作为一篇技术性文章,旨在深入探讨Python编程中设计模式的应用价值与实践心得。在快速迭代的软件开发领域,设计模式如同导航灯塔,指引开发者构建高效、可维护的软件架构。本文将通过具体案例,展现设计模式如何在实际项目中解决复杂问题,提升代码质量,并分享个人在实践过程中的体会与感悟。 ####