备案控制台

开发者社区人工智能文章正文

支持向量机原理讲解（一）

2018-06-18 1944

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 介绍支持向量机(Support Vector Machine,以下简称SVM)，作为传统机器学习的一个非常重要的分类算法，它是一种通用的前馈网络类型，最早是由Vladimir N.Vapnik 和 Alexey Ya.Chervonenkis在1963年提出，目前的版本（soft margin）是Corinna Cortes 和 Vapnik在1993年提出，1995年发表。

介绍

支持向量机(Support Vector Machine,以下简称SVM)，作为传统机器学习的一个非常重要的分类算法，它是一种通用的前馈网络类型，最早是由Vladimir N.Vapnik 和 Alexey Ya.Chervonenkis在1963年提出，目前的版本（soft margin）是Corinna Cortes 和 Vapnik在1993年提出，1995年发表。深度学习（2012）出现之前，如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。

SVM本来是一种线性分类和非线性分类都支持的二元分类算法，但经过演变，现在也支持多分类问题，也能应用到了回归问题。本篇文章重点讲解线性支持向量机的模型原理和目标函数优化原理。

目录

感知机模型
理解线性支持向量机

一、感知机模型

在讲解SVM模型之前，我们可以先简单了解感知机模型的原理，因为这两个模型有一些相同的地方。在二维平面中，感知机模型是去找到一条直线，尽可能地将两个不同类别的样本点分开。同理，在三维甚至更高维空间中，就是要去找到一个超平面。定义这个超平面为wTx+b=0（在二维平面中，就相当于直线w_1*x+w_1*y+b=0），而在超平面上方的点，定义为y=1，在超平面下方的点，定义为y=-1。而这样的超平面可能是不唯一的，那么感知机是怎么定期最优超平面呢？从感知机模型的目标函数中，我们了解到它是希望让所有误分类的点(定义为M)到超平面的距离和最小。其目标函数如下：

(注：加入y_i是因为点若在超平面下，w*x_i+b为负数，需要乘上对应的y)

当w和b成比例增加了之后，比如都扩大N倍，会发现，分子和分母都会同时扩大N倍，这对目标函数并不影响。因此，当我们将W扩大或缩小一定倍数使得，||w||=1，分子也会相应的扩大或缩小，这样，目标函数就能简化成以下形式：

这个思想将会应用到支持向量机的目标函数优化上，后文将会详细讲解。

二、理解线性支持向量机

2.1 线性支持向量机思想

正如上文所说，线性支持向量机的思想跟感知机的思想很相似。其思想也是对给定的训练样本，找到一个超平面去尽可能的分隔更多正反例。不同的是其选择最优的超平面是基于正反例离这个超平面尽可能远。

线性支持向量机模型

从上图可以发现，其实只要我们能保证距离超平面最近的那些点离超平面尽可能远，就能保证所有的正反例离这个超平面尽可能的远。因此，我们定义这些距离超平面最近的点为支持向量（如上图中虚线所穿过的点）。并且定义正负支持向量的距离为Margin。

2.2 函数间隔和几何间隔

对SVM思想有一定理解之后，设超平面为wTx+b=0。我们讲解一下函数间隔和几何间隔的区别。

给定一个样本x，|wTx+b|表示点x到超平面的距离。通过观察wTx+b和y是否同号，我们判断分类是否正确。所以函数间隔定义γ’为：

而函数间隔不能正常反应点到超平面的距离，因为当我们等比例扩大w和b的时候，函数间隔也会扩大相应的倍数。因此，我们引入几何间隔。

几何间隔就是在函数间隔的基础下，在分母上对w加上约束（这个约束有点像归一化），定义为γ：

其实参考点到直线的距离，我们可以发现几何间隔就是高维空间中点到超平面的距离，才能真正反映点到超平面的距离。

2.3 SVM目标函数及优化

根据SVM的思想，我们可以知道是要取最大化支持向量到超平面的几何间隔，所以目标函数可以表示为：

在感知机模型最后，我们知道当同时扩大w和b，分子分母都会同样扩大，对目标函数不影响，所以在这里我们将分子(支持向量到超平面的函数间隔)扩大或压缩等于1，则目标函数可以转化为：

但是上式并不是凸函数，不好求解，再进一步转化为：

上式就是一个凸函数，并且不等式约束为仿射函数，因此可以使用拉格朗日对偶去求解该问题。

根据拉格朗日乘子法，引入拉格朗日乘子α，且α≥0我们可以知道，先不考虑min，(2)问题等价于：

然后再考虑min，则有：

应用拉格朗日对偶性，通过求解对偶问题得到最优解，则对偶问题的目标函数为：

这就是线性可分条件下支持向量机的对偶算法。这样做的优点在于：

一是原问题的对偶问题往往更容易求解

二者可以自然的引入核函数，进而推广到非线性分类问题。

从(4)中，我们可以先求目标函数对于w和b的极小值，再求拉格朗日乘子α的极大值。

首先，分别对w和b分别求偏导数，并令为0：

将(5)和(6)代入(4)得到：

对(7)取反得到：

只要我们可以求出(8)中极小化的α向量，那么我们就可以对应的得到w和b，而求解α需要使用SMO算法，由于该算法比较复杂，我们将在下一篇文章专门讲解。假设我们现在已经使用SMO算法得到了最优的α值，记为α_ *

再求b：

对于任一样本(x_s, y_s)有：

注意到任一样本都有y_s^2=1，则将右式的1用y_s^2代：

将(9)代入上式，可以得到：

这样，我们就能够求解得到线性支持向量机的目标函数的各个参数，进而得到最优的超平面，将正负样本分隔开。但是在上文中我们没有讲解求α向量的SMO算法，在下篇文章，将会详细讲解SMO算法，欢迎继续关注。

文章标签：

算法

机器学习/深度学习

磐石001

目录

相关文章

H8

|

物联网数据安全/隐私保护智能硬件

女朋友问: 你知道蓝牙耳机的原理吗？

蓝牙是一种无线通讯技术标准，用来让固定与移动设备，在短距离间交换资料，以形成个人局域网(PAN)。其使用短波特高频(UHF)无线电波，经由2.4至2.485GHz的ISM频段来进行通信。1994年由电信商(Ericsson)发展出这个技术。它最初的设计，是希望创建一个RS-232数据线的无线通信替代版本。

H8

898 17 17

技术员阿伟

|

10月前

|

机器学习/深度学习人工智能自然语言处理

《Attention LSTM：解锁关键信息捕捉的强大引擎》

Attention LSTM将注意力机制融入长短期记忆网络（LSTM），显著提升对关键信息的捕捉能力。通过计算注意力分数、生成权重、加权求和及最终预测，模型能动态调整关注度，突出重要信息，广泛应用于自然语言处理、语音识别等领域，为复杂序列数据处理提供有力支持。

技术员阿伟

340 13 14

fzqoetf642qao

|

2月前

|

存储供应链 API

1688获得店铺所有商品的API接口

本文介绍如何通过1688开放平台API获取指定店铺的全部商品信息，涵盖注册、认证、分页调用及Python代码实现，适用于数据同步、库存管理与电商分析，内容真实可靠，步骤清晰易行。

fzqoetf642qao

287 0 0

游客lqgz743i5raeg

|

6月前

|

API 开发工具计算机视觉

YOLO11 语句整理

本内容介绍基于YOLOv11模型的开发流程，涵盖模型下载、安装依赖库、训练与推理、模型转换为OpenVINO格式及部署。通过Ultralytics工具包实现模型加载、训练和预测，并使用OpenVINO优化推理性能。此外，提供数据集划分方法，按指定比例生成训练集、验证集和测试集，确保数据准备规范化，提升模型训练效果与实用性。

游客lqgz743i5raeg

275 0 0

云流雨洄

|

9月前

|

Linux

Linux目录删除指南：彻底解决“Is a directory”错误

在 Linux 系统中遇到 `cannot remove 'xxx': Is a directory` 错误，是因为删除目录时未使用正确参数。解决方法包括：1) 使用 `rmdir` 删除空目录或 `rm -r` 删除非空目录；2) 检查并调整目录权限（如通过 `sudo` 提权）；3) 处理特殊场景，例如文件属性异常、特殊字符或进程占用；4) 替代方法如 `find -delete` 或文件系统修复。操作前建议备份数据，并启用防误删功能（如 `alias rm='rm -i'`）。掌握 `rm` 和 `rmdir` 的区别是关键。

云流雨洄

815 1 1

aliyun7362823750

|

敏捷开发存储数据可视化

无纸化办公用什么软件能够最快提高工作效率！

无纸化办公（Paperless Office）是现代办公的重要趋势，旨在减少纸张使用，保护环境，提高效率，降低成本。通过电子文件管理，无纸化办公实现了快速查找、即时共享和远程协作，大幅提升了工作效率。文章推荐了五款高效无纸化办公软件：板栗看板、Jira、Wrike、Basecamp 和 Monday.com，这些工具在任务管理、项目协作和数据统计等方面表现出色，助力企业实现无纸化转型。

aliyun7362823750

468 4 4

最好zzz

|

缓存关系型数据库 MySQL

MySQL执行计划深度解析：如何做出最优选择

【10月更文挑战第23天】在数据库查询性能优化中，执行计划的选择至关重要。MySQL通过查询优化器来生成执行计划，但有时不同的执行计划会导致性能差异。理解如何选择合适的执行计划，以及为什么某些计划更优，对于数据库管理员和开发者来说是一项必备技能。

最好zzz

759 2 2

GG2020gg

|

自然语言处理算法 Unix

【数据安全】敏感字过滤方案总结

【数据安全】敏感字过滤方案总结

GG2020gg

415 1 1

xiaowang_lj

|

安全 Android开发数据安全/隐私保护

Android 如何获取系统签名并使用系统签名

Android 如何获取系统签名并使用系统签名

xiaowang_lj

457 2 2

叫我兔兔酱

|

存储小程序

【边做边学】uni.switchTab的目标页面获取不到url携的参数

【边做边学】uni.switchTab的目标页面获取不到url携的参数

叫我兔兔酱

785 1 1

热门文章

最新文章

嵌入式：一文看懂ASIC和FPGA的区别

SpringBoot+kafka+ELK分布式日志收集

饿了么大数据计算引擎实践与应用

【运维知识进阶篇】手把手教你搭建OpenVPN（保姆级教程）（二）

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

lmbench内存延迟测试代码分析

RTSP服务器之————rtsp-server(轻量级RTSP / RTP流媒体服务器)

Confluence 6 管理文件

Web游戏开发编程:最神奇的“触觉振动”

关于aio的设置的讨论

LLM 方案实战：流量飙升百倍后，选 Agent 还是 Workflow？

阿里云服务器收费标准_云服务器ECS价格表_轻量优惠活动

量子来了，RSA要凉？聊聊后量子加密的未来与现实（含代码！）

百万 QPS 不是洪水猛兽：高流量服务的采样、聚合与可视化，咱得这么干！

数据也要“打标签”：为什么数据版本控制这么重要？

PyTorch推理扩展实战：用Ray Data轻松实现多机多卡并行

《TXT与专用HSTS记录的浏览器安全通信轻量配置指南》

《Nginx在嵌入式场景的高效配置与运维逻辑》

前端UI框架介绍VantUI AtUI CubeUI Flutter lonic

TypeWords:让英语学习更高效的打字练习神器

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

对象存储OSS快速上手——如何使用ossbrower2