备案控制台

开发者社区人工智能文章正文

AI遮天传 ML-SVM

2023-01-08 262

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI遮天传 ML-SVM

支持向量机(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器其学习问题中。

背景信息：

当前版本的支持向量机大部分是由Vapnik和他的同事在AT&T贝尔实验室开发的

是一个最大间隔分类器（Max Margin Classifier）

最开始提出是做分类，后来很快被应用到了回归和时间序列的预测

最有效的监督学习方法之一

曾被作为文本处理方法的一个强基准模型（strong baseline）

生活引入：

我们生活中经常看到一些影评、物评等等，可以分成三类：

Pos正面：这款游戏真好玩！
Neg负面：呸，狗都不玩。
Neural中性：这是一款像素游戏。

又如我们直到飞机、火车长什么样子，能够在不同的图片将它们分类出来：

再或者我们听一个音乐的音律、节奏，可以辨别出它是何种音乐，如：

Rock: Michael Jackson “Beat it”

Hip Hop: Eminem “Lose yourself”

Blues: Muddy Waters “I can’t be satisfied

对于以上三个例子，我们不难发现，都有一个“中性”的结果，其两侧分别是问题的两种不同的结果，这便是我们今天介绍的线性向量机解决问题的思路。

分类方法回顾：

决策树

样本的属性非数值

目标函数是离散的

贝叶斯学习

样本的属性可以是数值或非数值

目标函数是连续的（概率）

K-近邻

样本是空间（例如欧氏空间）中的点

目标函数可以是连续的也可以是离散的

支持向量机 (Support Vector Machine)

样本是空间（例如欧氏空间）中的点

目标函数可以是连续的也可以是离散的

一、线性支持向量机

给定一个训练样本的集合

找到一个函数f(x,a) 分类样本，a为参数，使得：

则对于一个测试样本x，我们可以预测它的标签为[f(x,a)]

f(x,a) = 0 被称为分类超平面

解释：简单来说就是对于任意+1 正例的部分，它全部都是大于0的；对于任意-1 负例的部分，它全部都是小于0的。 电影评价，中评为分类超平面，比中评好的，我们分类为好评，比它差的，我们分类为差评。

线性分类器：

对于一个线性超平面：

(注：为向量的内积即样本特征值和参数的内积，b为截距。)

在线性可分的情况下，有无穷多个满足条件的超平面，把结果分成n部分(n=2那分类超平面就是一条线，n=3就是一个面...)

那么哪条线最好呢？

线性分类器的间隔(Margin)

在分类分界面两侧分别放置平行于分类超平面的一个超平面，移动超平面使其远离分类超平面
当他们各自第一次碰到数据点时，他们之间的距离被称为线性分类器的间隔
Margin (间隔): 分界在碰到数据点之前可以达到的宽度

比如黑线是超平面，两条黄线的边界刚刚触碰到各自的第一个点，上面宽为2，下面宽为3，那间隔就是5.

最大间隔线性分类器 (Maximum margin linear classifie)

即具有最大间隔的线形分类器

我们看到这次的黑线(超平面)两端的黄线明显更粗了，所以这条线更好。

那些阻挡间隔继续扩大的数据点，我们叫做支持向量(SV)。

(除了间隔边界上的数据点以外，那些在间隔区域内的、以及在错误一侧的数据点，也都是SV。后面会讲)

问题形式化

首先，我们需要数据点完美分布在超平面两侧，

引入平行于分类超平面的两个额外超平面：

间隔即两个新的超平面之间的距离

如何计算 ?

最优化问题(使间隔最大化)：

虽然看起来似乎间隔只与w有关，但b仍然通过约束w的取值，间接对间隔产生影响。

(因为y为1或-1，说明都分对了)

对偶问题(拉格朗日子乘法)

即经过一系列的转化，我们最终要求的就是在上图红色部分中，在二三行条件下，第一行的最小值。

支持向量

根据KKT条件： ( >=0)

当非0 ---> 即在间隔的边界上(支持向量SV)
大多数为0，这些对没有什么影响稀疏解

线性不可分情况

我们前面提到：首先我们需要数据点完美分布在超平面两侧，这是为了保证训练分类错误率为0.

但是在线性不可分情况下，一定会有错误。

此时找不出一条直线来将他们分隔开来。

我们需要最小化和训练分类错误！

其中C>0 是一个用于平衡这二者的常数(前面重要C小一点后面重要C大一点)

正值常数 C 平衡着 大间隔和小分类错误

Structure risk (结构风险) vs. empirical risk (经验风险)

大 C: 更偏向于错误小
小 C: 更偏向于间隔大

损失函数： 0/1 损失和 Hinge 损失

回顾正确的预测：

定义

对每个样本 :

0/1损失：

非凹凸连续，不容易求解

z<0时： <0时 >0 或 >0时说明做错了/正例跑到了负例那，负例跑到了正例那。此时loss=1

z>=0时：loss=0

Hinge损失：

z<1时，说明点在间隔里面，loss=1-z

z>=1时，loss=0，说明对了

更多损失函数:

形式化损失函数

软间隔（soft margin）

仍然希望找到最大间隔超平面，但此时:

我们允许一些训练样本被错分类(, 不一定全分对了)

我们允许一些训练样本在间隔区域内(是正确的，这次不停下来)

时，数据点在间隔区域的边界上或在间隔区域外部正确分类的那一侧
时，数据点在间隔区域内但在正确分类的一侧
时，数据点在分类超平面错误分类的一侧
正值常数 C 平衡着 大间隔和小分类错误

Structure risk (结构风险) vs. empirical risk (经验风险)

大 C: 更偏向于错误小
小 C: 更偏向于间隔大

对偶问题总结

应用举例: 利用LLC 和 SVM的图像分类

数据集: Caltech101 :9144 张图片、102 类别

预处理：转化为灰度图、放缩图片 e.g. 较长边有120 像素

用LLC (底层特征，Low Level Content) 来提取图像特征

用SVM训练和测试

测试结果

训练时每个类别用 15 张图片: 70.16%

训练时每个类别用 30 张图片: 73.44%

二、核函数支持向量机（Kernel SVM）

从输入空间到特征空间

样本xi 在输入空间线性不可分，但可能在特征空间中线性可分。

特征空间中的问题

核技巧 (Kernel Tricks)

为了在特征空间中求解对偶问题且找到分类超平面，我们只需知道 ，(而不是分别的。)

如果我们已知一个函数 它等于那么我们就没有必要显示地表示这些特征。

称作核函数(kernel function)

即只需要知道核函数是什么就好了。

常用核函数

例如：

即他们地映射结果刚好是相等的所以可以用核函数代表。

三种构造核函数的方法

注：是三种方法；

第一种：根据特征函数手动计算核函数
第二种：直接选择一个合理的核函数
第三种：利用简单核函构造新的核函数举例: 构造高斯核函数

软件工具

Libsvm ：http://www.csie.ntu.edu.tw/~cjlin/libsvm/

Liblinear ：http://www.csie.ntu.edu.tw/~cjlin/liblinear/

SVMlight ：http://svmlight.joachims.org/

三、SVM的核心概要

线性支持向量机

线性可划分问题：最大化间隔
线性不可划分问题：最大化间隔且最小化分类错误
原始问题不好求，转换为对偶问题。

核函数支持向量机

映射到特征空间：
核技巧：
3种构造核函数的办法

SVM的优缺点

优点

很好的数学基础

最大化间隔使得方法的鲁棒性非常高，泛化能力强

用线性的方法解决线性不可分问题（两种思路）

1.利用soft margin: 最大化间隔且最小化分类错误

2.通过从输入空间到特征空间的变换

本质上是将在低维空间上线性不可分的问题，通过变换（大多是升维）变成线性可分问题

利用Kernel Trick，并不需要知道该变换是什么

在实际应用中效果往往不错

缺点

有多种核函数可用，针对具体问题，哪个核函数最好？

—— 尚未找到理论上可证明的最优选择

文章标签：

计算机视觉

机器学习/深度学习

人工智能

老师我作业忘带了

目录

相关文章

冷色系456

|

存储缓存监控

服务器的介绍

服务器的介绍

冷色系456

473 0 0

初学者-Study

|

Android开发数据安全/隐私保护

Android Studio 打包APK（详细版）

Android Studio 打包APK（详细版）

初学者-Study

4018 0 0

Android Studio 打包APK（详细版）

刘志辉~

|

JavaScript 前端开发 UED

JavaScript 中的 change

JavaScript 中的 change

刘志辉~

265 1 1

宋晨明

|

存储并行计算 C++

NVIDIA Triton系列08-用户端其他特性

本文详细解析了NVIDIA Triton开源项目的image_client.py示例代码，涵盖指定通信协议（HTTP与gRPC）、调用异步模式与数据流处理、以及使用共享内存等核心功能，为开发者提供撰写Triton用户端应用的指导。通过具体代码示例，帮助读者理解如何高效利用Triton服务器进行模型推理。

宋晨明

296 1 1

NVIDIA Triton系列08-用户端其他特性

社区助手

|

运维 Linux 网络协议

7大板块，200+面试题，助你拿下offer | 运维工程师面试宝典

在2020阿里云峰会上，阿里云智能总裁张建锋表示，阿里云今年再招5000人，大规模引进顶尖科技人才。7月9日 19:00-21:30 阿里云开发者社区首场“Offer 5000”直播开启！15位团队技术大牛在线招人，《阿里云技术面试红宝书》助你拿下Offer！马上投递简历： https://developer.aliyun.com/special/offerday01，在此，小编奉上运维工程师面试宝典，帮你拿下好工作！

社区助手

13967 0 8

7大板块，200+面试题，助你拿下offer | 运维工程师面试宝典

米八说

|

人工智能前端开发开发者

编辑技能：使用 Markdown 标记语言仅仅靠键盘也能完成排版，鼠标兄弟可以一边歇着了

Markdown 是一种标记语言，对于 SaaS 服务商和 AI 提示词编写者来说是必备技能。它使用简单的符号如 `#`, `-`, `>` 进行文本排版，无需复杂富文本编辑器。通过键盘输入即可实现标题、列表等样式，比 WPS 或 Word 更便捷。Markdown 广泛应用于云平台社区、问答网站、GitHub 项目文档及开源程序。了解基础后，适应不同平台的自定义语法相对容易，且有多种 Markdown 客户端工具可供选择，如 Typora、MarkText 和 Obsidian。Visual Studio Code 配合插件也是强大工具，适合撰写公众号推文等。

米八说

230 4 4

编辑技能：使用 Markdown 标记语言仅仅靠键盘也能完成排版，鼠标兄弟可以一边歇着了

游客mldfis24krfue

|

Linux 数据库

在Linux中，如何搜索文件？

在Linux中，如何搜索文件？

游客mldfis24krfue

670 0 0

1323217895018808

|

NoSQL 物联网 atlas

浅析通过MongoDB一起解锁工业4.0转型的无限潜力！

MongoDB在智能制造中发挥关键作用，通过其开发者数据平台提升工业4.0的潜能，实现生产效率的提高和成本降低。借助MongoDB Atlas，企业能实时洞察、增强整体设备效率，构建现代物联网应用。MongoDB助力企业数字化转型，通过西门子数字化工厂、RideKleen、Longbow Advantage和博世数字等案例展示了其在提高生产灵活性、保障高可用性、加速创新和实现无缝数据同步方面的优势。MongoDB使制造企业能够应对数据挑战，优化运营，提升客户体验。

1323217895018808

315 1 1

霍格沃兹测试开发muller老师

|

存储网络安全 Android开发

接口测试：抓包工具证书配置

Charles 抓包工具配置指南：包括Charles的基础设置，证书安装（Mac和Windows），SSL代理设置，移动端（同一WIFI环境，启用透明HTTP代理）和模拟器的代理配置，以及iOS系统的代理与证书安装步骤。注意Android 6+及iPhone 10+的特殊信任设置。配置完成后，通过Charles进行网络请求监控。

霍格沃兹测试开发muller老师

542 0 0

热门文章

最新文章

OpenSearch大模型实践之Havenask篇

一文掌握：Gitlab的完整使用手册

java实现图片与base64转换

手机验证码登录

Pycharm2022最新版安装破解与激活教程，亲测可用

Java单元测试之单元测试规范

Exchange 中关于邮件的生命周期和托管文件夹的相关设定

抽象工厂模式

Android按返回键（后退键）Back键事件捕获的两种方法

Linux下安装显卡Run格式

关于synchronized-reentrantlock-volatile学习总结1.0

最新PyCharm 安装详细图文教程：小白也能轻松搞定

用错工具比没工具更可怕：Ansible vs Terraform 实战对比，用最接地气的方式讲清楚

别等系统报警了才想起 Trace！——分布式事务可观测性的那些坑与优化套路

数据建模到底怎么稳？从维度建模聊到列式存储，让你的数据仓库飞起来！

基于反馈循环的自我进化AI智能体：原理、架构与代码实现

LLM为何难以胜任复杂任务？探索AI认知局限

【Java架构师体系课 | MySQL篇】⑦ 深入理解MySQL事务隔离级别与锁机制

阿里云服务器最便宜多少钱一年？38元一年，配置、价格及购买限制说明

强化网站安全的利器（Nginx中如何正确配置HSTS安全头）

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云负载均衡收费标准：ALB、NLB和CLB价格，包括LCU费用、实例费和公网带宽价格