数据分析入门系列教程-SVM实战

简介: 数据分析入门系列教程-SVM实战

上一节我们了解了 SVM 的原理,今天就来带你进行 SVM 的实战。

SVM 是有监督的学习模型,就是说我们需要先对数据打上标签,之后通过求解最大分类间隔来求解二分类问题,而对于多分类问题,可以组合多个 SVM 分类器来处理。

sklearn 中的 SVM

其实在工具 sklearn 中,已经封装了多种 SVM 模型,这里我们重点介绍下 SVC,该模型既可以训练线性可分的数据,也可以训练线性不可分数据。

from sklearn.svm import SVC

相关参数

参数名 含义
C 惩罚系数,默认为1.0。当 C 越大时,分类器的准确性越高,但是泛化能力越低。反之,泛化能力强,但是准确性会降低。
kernel 核函数类型,默认为 rbf。主要的核函数类型如下:
liner:线性核函数,在数据为线性可分的情况下使用
poly:多项式核函数,可以将数据从低维空间映射到高维空间,但是参数较多,计算量大
rbf:高斯核函数,同样可以将数据从低维空间映射到高维空间,相比 poly,参数较少,通用性较好
sigmoid:当使用 sigmoid 核函数时,SVM 实现的是一个多层神经网络
gamma 核函数系数,默认为样本特征数的倒数,即 gamma = 1/ n_features
max_iter 最大迭代次数,默认为-1,不做限制
class_weight 类别权重,dict 类型或 str 类型,可选参数,默认为 None。如果给定参数'balance',则使用 y 的值自动调整为与输入数据中的类频率成反比的权重。

乳腺癌预测

本例子使用的数据可以在这里下载

https://github.com/zhouwei713/DataAnalyse/tree/master/SVM

数据探索

我们先来加载数据,查看下数据情况

import pandas as pd
breast = pd.read_csv('breast_data.csv')
breast.head()


数据集的字段比较多,我整理了一个表格


我们要预测的标签就是字段 diagnosis,是一个二分类的问题。

除去 id 和 diagnosis 字段,还有30个字段,它们都是某些特征的平均值、方差值和最大值,所以真实的特征是10个,每个特征存在3个维度的数据。

breast.isnull().sum()  # 查看缺失值
>>>
id                         0
diagnosis                  0
radius_mean                0
texture_mean               0
perimeter_mean             0
area_mean                  0
smoothness_mean            0
compactness_mean           0
concavity_mean             0
concave points_mean        0
symmetry_mean              0
fractal_dimension_mean     0
radius_se                  0
texture_se                 0
perimeter_se               0
area_se                    0
smoothness_se              0
compactness_se             0
concavity_se               0
concave points_se          0
symmetry_se                0
fractal_dimension_se       0
radius_worst               0
texture_worst              0
perimeter_worst            0
area_worst                 0
smoothness_worst           0
compactness_worst          0
concavity_worst            0
concave points_worst       0
symmetry_worst             0
fractal_dimension_worst    0
dtype: int64

数据集很完整,并没有缺失值

print(breast['diagnosis'].value_counts())
>>>
B    357
M    212
Name: diagnosis, dtype: int64

患有恶性肿瘤的有212人,良性患者为357人

数据清洗

首先去掉不需要的字段,ID 字段

breast.drop("id", axis=1, inplace=True)

再把标签列(diagnosis)转换成0-1的形式,可以使用独热编码,也可以直接转换

breast['diagnosis']=breast['diagnosis'].map({'M': 1, 'B': 0})

最后再把数据分为三个部分,分别为 mean,se 和 worst

breast_mean = list(breast.columns[1:11])
breast_se = list(breast.columns[11:21])
breast_worst = list(breast.columns[21:31])

特征关联性分析

还是使用热力图来观察各个特征之间的关联关系

import matplotlib.pyplot as plt
import seaborn as sns
breast_corr = breast[breast_mean].corr()
sns.heatmap(breast_corr, annot=True)
plt.show()


我们可以清晰的看出, radius_mean 和 perimeter_mean,area_mean 的相关性非常大,compactness_mean 和 concave_points_mean,concavity_mean 的相关性也很高,所以我们可以只取它们中的一个作为代表即可。

特征选择

我们做特征选择的目的就是为了降维,用少量的特征代表数据的特性,从而提高分类器的泛化能力,避免模型过拟合。

因为 mean,se 和 worst 分别是每个特征的三个不同度量方式,所以可以只取 mean 一类作为代表。又因为上面的相关性分析,可以把相关性高的特征中选出一个作为代表即可。

breast_features = ['radius_mean','texture_mean', 'smoothness_mean','compactness_mean','symmetry_mean', 'fractal_dimension_mean']

拆分数据集

把数据拆分成训练集和测试集

train, test = train_test_split(breast, test_size = 0.3)
# 抽取特征选择的数值作为训练和测试数据
X_train = train[breast_features]
y_train =train['diagnosis']
X_test = test[breast_features]
y_test =test['diagnosis']

数据规范化

不同于决策树,SVM 模型还是需要进行数据规范化的,这里还是使用 Z-Score 规范化

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

训练和预测

最后,就可以构建 SVM 分类器进行训练和预测了

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# 创建 SVM 分类器
model = SVC()
# 用训练集做训练
model.fit(X_train,y_train)
# 用测试集做预测
prediction=model.predict(X_test)
print('准确率: ', accuracy_score(prediction,y_test))
>>>
准确率:  0.9298245614035088

看起来效果还不错,已经达到了 92%

查看性能报告

我们可以利用 sklearn 提供的性能报告,来查看模型的性能

from sklearn.metrics import classification_report
print(classification_report(y_test, prediction))
>>>
              precision    recall  f1-score   support           0       0.94      0.95      0.95       111
           1       0.91      0.88      0.90        60   micro avg       0.93      0.93      0.93       171
   macro avg       0.93      0.92      0.92       171
weighted avg       0.93      0.93      0.93       171

函数 classification_report 需要传递两个参数,测试标签和预测标签

报告大致意思为:

每个类别的准确率,召回率,f1-score(准确率和召回率的组合运算值)以及每个类别的个数

同时还提供了各种平均值,最小,最大和加权平均值。

毒蘑菇检测

同样,还是可以在这里找到数据集

https://github.com/zhouwei713/DataAnalyse/tree/master/SVM

还是先来探索下数据

import pandas as pd
import numpy as np
mush = pd.read_csv('mushrooms.csv')
mush.head()


发现特征也是很多的,我们不再关心每一列具体都是什么含义了,只需要知道 class 是标签列,用于区分蘑菇是否有毒。特特征提取由于我们的数据集中,每一列都是字符,不是数字类型,所以不能够通过构造热力图来判断特征之间的相关性,那么我们可以使用另一种更加普遍的方式,主成分分析法来做特征提取

主成分分析 PCA

是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

而 sklearn 同样为我们提供了该方法的实现

from sklearn.decomposition import PCA

主要参数:

n_components:需要保留的特征个数,如果 n_components = 1,将把原始数据降到一维;如果赋值为 string,如 n_components='mle',将自动选取特征个数,使得满足所要求的方差百分比;如果没有赋值,默认为 None,特征个数不会改变(特征数据本身会改变)

whiten:默认为 False,是否白化,使得每个特征具有相同的方差

特征转换

由于数据集中特征都是字符类型,需要通过独热编码的方法转换

mush_encoded = pd.get_dummies(mush)
print(mush_encoded.head())


接下来再进行特征和标签的提取

X_mush = mush_encoded.iloc[:,2:]
y_mush = mush_encoded.iloc[:,1]

构建 SVM 分类器

from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
pca = PCA(n_components=10, whiten=True, random_state=42)
svc = SVC(kernel='linear', class_weight='balanced')
model = make_pipeline(pca, svc)

这里用到了 make_pipeline 工具,该工具就是 sklearn 提供的便于编程的小工具,即把通过 PCA 做过处理的数据依次传递给模型(svc)

拆分训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_mush, y_mush,
                                                random_state=42)

使用网格搜索的方式调参

from sklearn.model_selection import GridSearchCV
param_grid = {'svc__C': [1, 5, 10, 50]}
grid = GridSearchCV(model, param_grid)
grid.fit(X_train, y_train)
print(grid.best_params_)
>>>
{'svc__C': 50}

这里我们应用到了 GridSearchCV 工具,该工具通过我们传递进去的参数 param_grid 来判断需要对模型的哪些参数做循环拟合测试,并最终得出不同参数下模型的得分情况。

从上面的输入可以看出,在惩罚系数为50的情况下,模型的表现是最好的。

而对于 param_grid 可以使用的 key 值,我们可以用如下的方法查看

model.get_params().keys()
>>>
dict_keys(['memory', 'steps', 'pca', 'svc', 'pca__copy', 'pca__iterated_power', 'pca__n_components', 'pca__random_state', 'pca__svd_solver', 'pca__tol', 'pca__whiten', 'svc__C', 'svc__cache_size', 'svc__class_weight', 'svc__coef0', 'svc__decision_function_shape', 'svc__degree', 'svc__gamma', 'svc__kernel', 'svc__max_iter', 'svc__probability', 'svc__random_state', 'svc__shrinking', 'svc__tol', 'svc__verbose'])

此处的 model 是通过 make_pipeline 得到的

查看模型得分

在找到了最佳的模型参数后,我们就可以打印下模型的性能得分了

from sklearn.metrics import classification_report
svm_model = grid.best_estimator_
yfit = svm_model.predict(X_test)
print(classification_report(y_test, yfit))
>>>
              precision    recall  f1-score   support           0       0.94      0.96      0.95      1040
           1       0.96      0.94      0.95       991   micro avg       0.95      0.95      0.95      2031
   macro avg       0.95      0.95      0.95      2031
weighted avg       0.95      0.95      0.95      2031

看起来模型还不错,平均都是在 95% 了。

混淆矩阵

再来看下混淆矩阵的情况,在前面的章节,我们打印过简易版的混淆矩阵,现在我们通过热力图的形式来展现混淆矩阵

from sklearn.metrics import confusion_matrix
mat = confusion_matrix(y_test, yfit)
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False)
plt.xlabel('true label')
plt.ylabel('predicted label')


本节完整代码

https://github.com/zhouwei713/DataAnalyse/tree/master/SVM

总结

今天带你实践了两个 SVM 分类的例子,希望你从这个过程中能够体会到整个项目的执行流程,包括数据加载、数据探索、数据清洗、特征转换、特征选择(主成分分析)、SVM 训练和评估等环节。

我们也能够看到,sklearn 已经为我们提供了大部分的实现,我们所需要做的就是理解业务(数据),找出最优的超参数,而把其他繁琐的数学运算先暂时放到一旁。我们需要在实战当中,熟悉流程,不断的训练自身的数据化思维和数据敏感度。

练习题

在毒蘑菇的例子中,我是保留了10个特征,你能否尝试下如果保留15个特征,准确率会有什么变化呢?


相关文章
|
1天前
|
数据采集 数据可视化 数据挖掘
利用 DataFrame 进行数据分析:实战案例解析
【5月更文挑战第19天】DataFrame是数据分析利器,本文通过一个销售数据案例展示其使用:读取数据创建DataFrame,计算产品总销量,分析月销售趋势,找出最畅销产品,并进行数据可视化。此外,还提及数据清洗和异常处理。DataFrame为数据处理、分组计算和可视化提供便利,助力高效数据分析。
11 3
|
5天前
|
算法 搜索推荐 数据挖掘
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(续)
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(续)
19 1
|
5天前
|
机器学习/深度学习 数据采集 算法
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)
26 1
|
5天前
|
数据可视化 搜索推荐 数据挖掘
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一)
数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一)
63 1
|
5天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
5天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
49 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
5天前
|
SQL 人工智能 自然语言处理
让老板成为数据分析师--ChatGpt链接本地数据源实战测试
本文探究ChatGpt等AI机器人能否帮助老板快速的做数据分析?用自然语言同老板进行沟通,满足老板的所有数据分析的诉求?
|
3天前
|
机器学习/深度学习 数据挖掘 Python
Python数据分析 | 泰坦尼克逻辑回归(下)
Python数据分析 | 泰坦尼克逻辑回归
7 1
|
3天前
|
机器学习/深度学习 数据挖掘 BI
Python数据分析 | 泰坦尼克逻辑回归(上)
Python数据分析 | 泰坦尼克逻辑回归
15 0
|
3天前
|
数据采集 数据挖掘 Python
Python数据分析 | 线性回归
Python数据分析 | 线性回归
11 1