数据分析入门系列教程-SVM原理

简介: SVM 的英文全称是 Support Vector Machines,我们叫它支持向量机,支持向量机是用于分类的一种算法,当然也有人用它来做回归。

SVM原理


我们先通过一个分类的例子来看一下 SVM 的定义

image.png

在一个二维平面上,有实心和空心两组圆点,如果我们想用一条线分开它们,那么其实可以画出无数条这种区分线。

而 SVM 就是试图把线放在最佳位置,好让在线的两边到两组圆点边界点的距离尽可能大。体现在图上就是:

image.png

线 A 正好紧挨实心点的最边界点,线 C 正好紧挨空心点的最边界点,而线 A,B,C是三条平行线且线 B 处于线 A 和 C 距离的中心处,且图中的绿线和黄线为最大距离,则此时的线 B 即为支持向量机算法下的最优解。而点1,2,3就称为支持向量,即 support vector。

当然,还可以扩展到三维空间中,那么就是使用平面进行分割

image.png

此时我们也称线 B 或者三维中的绿色平面为“决策面”。


决策面和分类间隔

在保证决策面方向不变且不会出现错分样本的情况下移动决策面,会在原来的决策面两侧找到两个极限位置(越过该位置就会产生错分现象),如图中的两条蓝线。蓝线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定(即黄线和绿线)。而这两条平行蓝线正中间的分界线就是在保持当前决策面方向不变的前提下的最优决策面。两条蓝线之间的垂直距离就是这个最优决策面对应的分类间隔。这个具有“最大间隔”的决策面就是 SVM 要寻找的最优解。而这个真正的最优解对应的两侧蓝线所穿过的样本点,就是 SVM 中的支持样本点,称为“支持向量”,这个概念我们上面也提到了。

由上面的图示可以看出,要想找到最优的决策面,其实就是一个求解最优的问题,即最优化问题。

当然以上我们讨论的都属于线性的 SVM,对于非线性问题,在后面再做讨论


线性 SVM 数学建模

下面我们就来看看如何使用数学公式来表示 SVM

在一个最优化问题中,一般有两个最基本的因素需要解决:

  1. 目标函数,就是我们希望什么东西的什么达到最好。
  2. 优化对象,就是我们希望通过改变哪些因素来使目标函数达到最优

在 SVM 算法中,目标函数对应的应该是“分类间隔”,因为我们希望根据 SVM 的定义,我们需要找到这个最大的距离,才是 SVM 的最优解。而优化对象就是决策面,我们需要移动决策面的位置和方向,来使得分类间隔达到最大。


决策面方程

这里我们考虑的是一个两类的分类问题,数据点用 x 来表示,这是一个 n 维向量,而类别用 y 来表示,可以取 1 或者 -1 ,分别代表两个不同的类(这里类别用1和-1就是为了 SVM 公式的推导)。一个线性分类器就是要在 n 维的数据空间中找到一个超平面,其方程可以表示为

image.png

一个超平面,在二维空间中的例子就是一条直线。我们希望的是,通过这个超平面可以把两类数据分隔开来,比如,在超平面一边的数据点所对应的 y 全是 -1 ,而在另一边全是 1 。

image.png

这里的 w 和 x 都是向量,因为向量默认都是列向量,所以把 w 转置一下就变成行向量了,然后它们的乘积就是一个标量,这样就可以达到加一个标量 y 使得结果为0。

分类间隔

分类间隔说白了,就是点到直线的距离,公式为:

image.png

||w|| 就是向量 w 的模,即向量的长度;x 就是支持向量样本点的坐标;y 等同于决策面方程中的 y。

image.png

SVM 约束条件

我们假设超平面(w, b)可以将训练样本完全正确的分类,所以如果类别 y = 1,则有 wx + b > 0,如果 y = -1,则有 wx + b < 0。此时再根据 SVM 的定义,要想正确分类,我们需要有如下约束:

image.png

记为约束条件1

由因为两条边界线(蓝线)之间的距离 y 等于 2r,而此时 wx + b 是等于1的,所以可以得到 γ 的距离为

image.png

此时求解最优 SVM 就变成了求解在约束条件1下的 γ 的最大值,

image.png

注意因为类别 y 和 wx + b 是同号的,所以它们的乘积永远为正数

也即是求 ||w|| 的最小化,即:

image.png

这个就是支持向量机的基本数学描述。

最后就是对上面的公式进行求解了,这中间会用到拉格朗日乘子和 KKT 等条件,就不再继续扩展了,有兴趣的同学可以查看周志华老师的《机器学习》支持向量机一篇,里面有非常详细的推导过程。


SVM 扩展

我们现在假设样本数据是完全线性可分的,那么学习到的模型就可以称之为硬间隔支持向量机,即硬间隔就是指完全正确的分类,不存在错误的情况。

但是在真实的世界中,数据往往都不是那么“干净”的,存在异常数据是再正常不过了,此时就需要软间隔。软间隔就是指允许一部分数据样本分类错误,从而使得训练的模型可以满足绝大部分其他样本。

还存在另外一种情况,就是非线性的数据集。我们前面讨论的都是线性情况下的分类,那么对于非线性的情况,SVM 也是支持的,就是非线性支持向量机。

image.png

比如该类数据集,任何线性模型都没有办法处理,SVM 也是不可用的。此时,我们就需要引入一个新的概念:核函数。它可以将样本从原始的空间映射到一个更高纬度的空间中,从而使得在新的空间中样本是线性可分的,这样就可以继续使用 SVM 来做分类了。

在非线性 SVM 中,核函数的选择是影响 SVM 的最大因素。常用的核函数有线性核、多项式核、高斯核、拉普拉斯核,sigmoid 核等,或者是使用它们的组合核函数。通过这些核函数的转换,我们就可以把样本空间投射到新的高维度空间中。


SVM实现多分类


SVM 本身是一个二值分类器,但是我们可以很方便的把它扩展到多分类的情况,这样就可以很好的应用到文本分类,图像识别等场景中。

扩展 SVM 支持多分类,一般有两种方法,OVR(one versus rest),一对多法;OVO(one versus one),一对一法。

OVR:对于 k 个类别发情况,训练 k 个SVM,第 j 个 SVM 用于判断任意一条数据是属于类别 j 还是非 j。

举个栗子:一组数据 A,B,C,我们先把其中的一类分为1,其他两类分为2,则可以构造 SVM 如下:

  1. 样本 A 为正集,B,C 为负集;
  2. 样本 B 为正集,A,C 为负集;
  3. 样本 C 为正集,A,B 为负集。

image.png

这种方法需要针对 k 个分类训练 k 个分类器,分类的速度比较快,但是训练的速度较慢。当新增一个分类时,需要重新对分类进行构造。

OVO:对于 k 个类别的情况,训练 k * (k-1)/2 个 SVM,每一个 SVM 用来判断任意一条数据是属于 k 中的特定两个类别中的哪一个。

相同的栗子:一组数据 A,B,C,我们把任意两类样本之间构造一个 SVM,那么可以构造如下:

  1. 分类器1,A,B;
  2. 分类器2,B,C;
  3. 分类器3,A,C。


image.png

对于一个未知的样本,每一个分类器都会有一个分类结果,记票为1,最终得票最多的类别就是未知样本的类别。这样当新增类别时,不需要重新构造 SVM 模型,训练速度快。但是当 k 较大时,训练和测试时间都会比较慢。


SVM优缺点


优点

SVM 既可以用于分类,也可以用于回归,学习能力强,学习到的结果具有很好的推广性。

SVM 是深度学习网络出现之前,机器学习领域的绝对王者

SVM 可以很好的解决小样本,高纬度问题

缺点

对于参数调节和核函数的选择很敏感

当数据量特别大时,训练很慢


总结


今天我们一起学习了 SVM 算法,可以说它是机器学习领域必备的算法,没有之一。

它本身是处理二值分类问题的,但是同样可以通过构造多个 SVM 分类器来灵活的处理多分类问题。

我们还简单的推导了在线性可分的情况下 SVM 的数学公式,而对于非线性可分的数据,我们需要引入核函数,来映射原始数据到一个新的高纬度空间中,再进行 SVM 构建。

微信图片_20220520175855.png

练习题


简单的说一下,你是怎么理解硬隔离、软隔离和核函数的呢?

相关文章
|
17天前
|
SQL 数据挖掘 Python
R中单细胞RNA-seq数据分析教程 (1)
R中单细胞RNA-seq数据分析教程 (1)
34 5
R中单细胞RNA-seq数据分析教程 (1)
|
2月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
深入浅出:用Python进行数据分析的入门指南
【10月更文挑战第21天】 在信息爆炸的时代,掌握数据分析技能就像拥有一把钥匙,能够解锁隐藏在庞大数据集背后的秘密。本文将引导你通过Python语言,学习如何从零开始进行数据分析。我们将一起探索数据的收集、处理、分析和可视化等步骤,并最终学会如何利用数据讲故事。无论你是编程新手还是希望提升数据分析能力的专业人士,这篇文章都将为你提供一条清晰的学习路径。
|
2月前
|
数据挖掘 索引 Python
Python数据分析篇--NumPy--入门
Python数据分析篇--NumPy--入门
36 0
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python中的简单数据分析:入门指南
【10月更文挑战第2天】Python中的简单数据分析:入门指南
34 0
|
4月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
86 2
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
193 4
|
4月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
87 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
20天前
|
SQL 数据挖掘 Python
数据分析编程:SQL,Python or SPL?
数据分析编程用什么,SQL、python or SPL?话不多说,直接上代码,对比明显,明眼人一看就明了:本案例涵盖五个数据分析任务:1) 计算用户会话次数;2) 球员连续得分分析;3) 连续三天活跃用户数统计;4) 新用户次日留存率计算;5) 股价涨跌幅分析。每个任务基于相应数据表进行处理和计算。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
数据分析之旅:用Python探索世界
数据分析之旅:用Python探索世界
30 2