Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

支持向量机是由间隔最大化和高维映射两大部件组成。间隔最大化是目标,支持向量机的损失函数依靠间隔计算,能让间隔达到最大的就是支持向量机要“学习”的过程。

高维映射用于解决线性不可分问题,可以理解为对数据的“预处理”。对于那些你中有我、间不容发的非线性分布数据,首先通过核函数映射至高维,映射后的数据集呈线性分布,为使用线性方法分类创造了条件。

最后归纳一下,使用支持向量机进行分类经过三个步骤:

1)选取一个合适的数学函数作为核函数。

2)使用核函数进行高维映射,数据点在映射后由原本的线性不可分变为线性可分。

3)间隔最大化,用间隔作为度量分类效果的损失函数,最终找到能够让间隔最大的超平面,分类也就最终完成了。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

数据包括两个Excel数据集:

data1(线性数据集)

x1

 

x2

 

y

标签

data2(非线性数据集)

x1

 

x2

 

y

标签

 

数据详情如下(部分展示):

image.png image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据:

image.png

关键代码:

image.png

3.2 缺失值统计

使用Pandas工具的info()方法查看数据是否有缺失值:

image.png

从图中可以看到,数据集1没有缺失值。

3.2 描述性统计分析

使用Pandas工具的describe ()方法进行描述性统计分析:

 

image.png

从上图可以看到,每个数据项的数量、平均值、标准差、最小值、最大值、分位数。

4.特征工程

4.1 构建特征和标签

关键代码如下:

image.png

 

5.探索性数据分析

5.1 可视化特征数据集:绘制散点图

image.png

从图中可以看到,数据集1中两个特征变量的散点图分布情况。

5.2 画决策边界:散点图中制作网格

image.png

通过上图可以看到,散点图中中布满了网格小点。

 

6.构建支持向量机分类模型

主要使用SVC算法,用于构建决策边界。

6.1 建模,计算决策边界并找出网格上每个点到决策边界的距离

 

模型名称

参数值

SVM分类模型

kernel="linear"

 

image.png

从上图可以看到,从上图可以看到三条等高线,这三条等高线是分别基于Z的值为-1、0、1绘制的。

关键代码:

image.png

6.2 模型探索

进行模型预测、计算模型的准确率和模型中支持向量的个数:

image.png

从上图可以看到,可以看到模型的预测值、支持向量和支持向量的个数为2。

 

关键参数代码:

image.png

6.3 推广到非线性情况

数据集2特征的散点图:

image.png

从上图可以看到,是大圆里面套了一个小圆。

绘制带有决策边界的散点图:

image.png

从上图可以看出,明显,现在线性SVM已经不适合于数据集2

6.4为非线性数据增加维度并绘制3D图像

image.png

从上图可以看到,数据集2明显是线性可分的了:我们可以使用一个平面来将数据完全分开,并使平面的上方的所有数据点为一类,平面下方的所有数据点为另一类,这就是决策树模型的高维映射。

7.结论与展望

综上所述,本项目采用了SVM分类模型来绘制线性数据和非线性数据决策边界的可视化图,最终证明了支持向量机分类模型具备非线性数据的分类能力,即具有高维映射的能力


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1B1ACxL12hRJOomiTHov66g 
提取码:if2f
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
11天前
|
机器学习/深度学习 数据采集 供应链
Python实现深度学习模型:智能库存管理系统
【10月更文挑战第5天】 Python实现深度学习模型:智能库存管理系统
60 9
|
11天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能数据隐私保护
使用Python实现深度学习模型:智能数据隐私保护 【10月更文挑战第3天】
40 0
|
9天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:智能质量检测与控制
使用Python实现深度学习模型:智能质量检测与控制 【10月更文挑战第8天】
101 62
使用Python实现深度学习模型:智能质量检测与控制
|
6天前
|
机器学习/深度学习 TensorFlow 调度
使用Python实现深度学习模型:智能能源消耗预测与管理
使用Python实现深度学习模型:智能能源消耗预测与管理
75 30
|
11天前
|
机器学习/深度学习 数据可视化 Python
Python实用记录(三):通过netron可视化模型
使用Netron工具在Python中可视化神经网络模型,包括安装Netron、创建文件和运行文件的步骤。
15 2
Python实用记录(三):通过netron可视化模型
|
4天前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型:智能天气预测与气候分析
使用Python实现深度学习模型:智能天气预测与气候分析
62 3
|
3天前
|
机器学习/深度学习 数据可视化 TensorFlow
使用Python实现深度学习模型:智能海洋监测与保护
使用Python实现深度学习模型:智能海洋监测与保护
19 1
|
6天前
|
机器学习/深度学习 算法 Python
深度解析机器学习中过拟合与欠拟合现象:理解模型偏差背后的原因及其解决方案,附带Python示例代码助你轻松掌握平衡技巧
【10月更文挑战第10天】机器学习模型旨在从数据中学习规律并预测新数据。训练过程中常遇过拟合和欠拟合问题。过拟合指模型在训练集上表现优异但泛化能力差,欠拟合则指模型未能充分学习数据规律,两者均影响模型效果。解决方法包括正则化、增加训练数据和特征选择等。示例代码展示了如何使用Python和Scikit-learn进行线性回归建模,并观察不同情况下的表现。
62 3
|
7天前
|
机器学习/深度学习 传感器 数据采集
使用Python实现深度学习模型:智能设备故障预测与维护
【10月更文挑战第10天】 使用Python实现深度学习模型:智能设备故障预测与维护
58 2
|
6天前
|
机器学习/深度学习 数据挖掘 Serverless
手把手教你全面评估机器学习模型性能:从选择正确评价指标到使用Python与Scikit-learn进行实战演练的详细指南
【10月更文挑战第10天】评估机器学习模型性能是开发流程的关键,涉及准确性、可解释性、运行速度等多方面考量。不同任务(如分类、回归)采用不同评价指标,如准确率、F1分数、MSE等。示例代码展示了使用Scikit-learn库评估逻辑回归模型的过程,包括数据准备、模型训练、性能评估及交叉验证。
19 1