python svm pca实践(一)

简介: 好久没写博客了 这里主要用python的sklearn包,来进行简单的svm的分类和pca的降维 svm是常用的分类器,其核心是在分类的时候找到一个最优的超平面,使得所有的样本与超平面之间的距离达到最小。

好久没写博客了
这里主要用python的sklearn包,来进行简单的svm的分类和pca的降维
svm是常用的分类器,其核心是在分类的时候找到一个最优的超平面,使得所有的样本与超平面之间的距离达到最小。
这里写图片描述
pca是常用的一种降维的方法,其核心是对去中心化后的数据,求得协方差矩阵,再对协方差矩阵进行特征分解,将最大的几个特征值作为这个样本的的新特征,达到降低数据特征维度的效果
这里写图片描述
这里用sklearn的digits数据集作为演示数据集

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# ***use seaborn plotting style defaults
import seaborn as sns; sns.set()

from sklearn import decomposition
from sklearn.decomposition import PCA
from sklearn.datasets import load_digits


#********************* KEY IMPORT OF THIS LECTURE********************************
from sklearn import svm


# loading handwritten digits
dig_data = load_digits()
X = dig_data.data
# y: the values of the digits, or "ground truth"
y = dig_data.target
dig_img = dig_data.images
print(type(X), X.dtype, X.shape)
print(type(dig_img), dig_img.dtype, dig_img.shape)
print(type(y), y.dtype, y.shape)

先导入所需要的包,并下载所需要的数据集
这里主要用到digits数据集中的.data,.target,.images属性
.data 为数据集的图像数据,用有1797个数据以一维的形式呈现,每个数据集的长度为64
.target为数据集的标签数据
.image位数据以8x8的形式呈现

dig_data = load_digits()
X = dig_data.data
y = dig_data.target
# This is basically each array in X
# getting reshaped into (8, 8).
dig_img = dig_data.images

print(type(X), X.dtype, X.shape)
print(type(y), y.dtype, y.shape)

select_idx = 2
# select_idx = 5

# ********************************Separating training data from testing data****************
Xtrain = np.delete(X, select_idx, axis = 0)
ytrain = np.delete(y, select_idx)

# if you don't do .reshape(1, -1), you get a warning.
# B/c the data argument for classifier has to be an array,
# even if it's a one-element array.
Xtest = X[select_idx].reshape(1, -1)
test_img = dig_img[select_idx]
ytest = y[select_idx]

print('Xtrain.shape, ytrain.shape', Xtrain.shape, ytrain.shape)
print('Xtest.shape, ytest.shape', Xtest.shape, ytest.shape)

plt.figure(figsize = (4, 4))
plt.imshow(test_img, cmap = 'binary')
plt.grid('off')
plt.axis('off')


# ************************************* The PCA Section ********************************
n_comp = 10

pca = PCA(n_comp)  

# finding pca axes
pca.fit(Xtrain)
# projecting training data onto pca axes
Xtrain_proj = pca.transform(Xtrain)
# projecting test data onto pca axes
Xtest_proj = pca.transform(Xtest)

print(Xtrain_proj.shape)
print(Xtest_proj.shape)


# ************************************* The SVM Section ********************************

# instantiating an SVM classifier
clf = svm.SVC(gamma=0.001, C=100.)

# apply SVM to training data and draw boundaries.
clf.fit(Xtrain_proj, ytrain)
# Use SVM-determined boundaries to make
# a prediction for the test data point.
clf.predict(Xtest_proj)

将数据集分成训练集和测试集,将索引为2的数据从整个数据集中剔除作为测试数据集,剩下的数据作为训练数据集,
n_comp为PCA降维后取得维数,
用训练集来训练PCA,再用训练集的模型来对训练集和测试集进行降维,
接着用训练集来训练SVM,并对测试集进行预测

def classify_dig_svm(X, y, dig_img, select_idx, n_comp, plot_test_img = False):
    dig_data = load_digits()
    X = dig_data.data
    y = dig_data.target
    dig_img = dig_data.images
    Xtrain = np.delete(X, select_idx, axis = 0)
    ytrain = np.delete(y, select_idx)
    Xtest = X[select_idx].reshape(1, -1)
    test_img = dig_img[select_idx]
    ytest = y[select_idx]
    if plot_test_img == True:
        plt.figure(figsize = (4, 4))
        plt.imshow(test_img, cmap = 'binary')
        plt.grid('off')
        plt.axis('off')

    n_comp = 10

    pca = PCA(n_comp)  


    pca.fit(Xtrain)

    Xtrain_proj = pca.transform(Xtrain)
    # projecting test data onto pca axes
    Xtest_proj = pca.transform(Xtest)

#     print(Xtrain_proj.shape)
#     print(Xtest_proj.shape)


    # ************************************* The SVM Section ********************************

    # instantiating an SVM classifier
    clf = svm.SVC(gamma=0.001, C=100.)

    # apply SVM to training data and draw boundaries.
    clf.fit(Xtrain_proj, ytrain)

    clf.predict(Xtest_proj)
    return clf.predict(Xtest_proj)

X = dig_data.data
y = dig_data.target
n_comp = 30
# select_idx =
# classify_dig_svm(X, y, dig_img, select_idx, n_comp, plot_test_img = False)
counter = 0
tot = 1797
for i in range(tot):
    if classify_dig_svm(X, y, dig_img, i, n_comp, plot_test_img = False) == y[i]:
        counter += 1
rate = counter/tot
print(rate)

classify_dig_svm的方法是对每个数据进行测试看一下训练出来的pca模型和svm模型的准确性
其实效果还好
这里写图片描述

目录
相关文章
|
6月前
|
存储 数据采集 监控
Python定时爬取新闻网站头条:从零到一的自动化实践
在信息爆炸时代,本文教你用Python定时爬取腾讯新闻头条,实现自动化监控。涵盖请求、解析、存储、去重、代理及异常通知,助你构建高效新闻采集系统,适用于金融、电商、媒体等场景。(238字)
1001 2
机器学习/深度学习 算法 自动驾驶
1224 0
|
7月前
|
存储 人工智能 算法
Python实现简易成语接龙小游戏:从零开始的趣味编程实践
本项目将中国传统文化与编程思维相结合,通过Python实现成语接龙游戏,涵盖数据结构、算法设计与简单AI逻辑,帮助学习者在趣味实践中掌握编程技能。
621 0
|
7月前
|
大数据 数据处理 数据安全/隐私保护
Python3 迭代器与生成器详解:从入门到实践
简介:本文深入解析Python中处理数据序列的利器——迭代器与生成器。通过通俗语言与实战案例,讲解其核心原理、自定义实现及大数据处理中的高效应用。
343 0
|
8月前
|
数据采集 Web App开发 JSON
Python爬虫基本原理与HTTP协议详解:从入门到实践
本文介绍了Python爬虫的核心知识,涵盖HTTP协议基础、请求与响应流程、常用库(如requests、BeautifulSoup)、反爬应对策略及实战案例(如爬取豆瓣电影Top250),帮助读者系统掌握数据采集技能。
673 0
|
8月前
|
传感器 数据采集 监控
Python生成器与迭代器:从内存优化到协程调度的深度实践
简介:本文深入解析Python迭代器与生成器的原理及应用,涵盖内存优化技巧、底层协议实现、生成器通信机制及异步编程场景。通过实例讲解如何高效处理大文件、构建数据流水线,并对比不同迭代方式的性能特点,助你编写低内存、高效率的Python代码。
313 0
|
8月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
1391 1
|
8月前
|
传感器 大数据 API
Python数字限制在指定范围内:方法与实践
在Python编程中,限制数字范围是常见需求,如游戏属性控制、金融计算和数据过滤等场景。本文介绍了五种主流方法:基础条件判断、数学运算、装饰器模式、类封装及NumPy数组处理,分别适用于不同复杂度和性能要求的场景。每种方法均有示例代码和适用情况说明,帮助开发者根据实际需求选择最优方案。
380 0
|
8月前
|
API 数据安全/隐私保护 开发者
Python自定义异常:从入门到实践的轻松指南
在Python开发中,自定义异常能提升错误处理的精准度与代码可维护性。本文通过银行系统、电商库存等实例,详解如何创建和使用自定义异常,涵盖异常基础、进阶技巧、最佳实践与真实场景应用,助你写出更专业、易调试的代码。
305 0
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
717 48
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包

推荐镜像

更多