支持向量机(一)

简介: **支持向量机(SVM)** 是一种优雅的分类和回归算法,广泛应用于文本分类、图像识别、生物信息学和金融预测。它寻找最大化类别间边距的决策边界,适应小样本、高维和非线性问题。SVM通过核函数(如RBF)处理非线性数据,目标是找到具有最大边距的超平面,以提高泛化能力。C参数调节模型复杂度,允许数据点偏离边界的程度。

支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中。支持向量机在许多领域都有广泛的应用,如文本分类、图像识别、生物信息学、金融预测等。


支持向量机的应用:


(1)文本分类:支持向量机可以用于文本分类任务,如垃圾邮件过滤、情感分析、主题分类等。通过对文本数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对文本数据的自动分类。


(2)图像识别:支持向量机可以用于图像识别任务,如手写数字识别、人脸识别、物体检测等。通过对图像数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以实现对图像数据的自动识别。


(3)生物信息学:支持向量机在生物信息学领域有广泛应用,如基因表达数据分析、蛋白质结构预测、药物设计等。通过对生物数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以帮助研究者发现新的生物学知识。


(4)金融预测:支持向量机可以用于金融预测任务,如股票价格预测、信用评分、风险评估等。通过对金融数据进行预处理,提取特征,然后使用支持向量机进行训练和预测,可以帮助投资者和金融机构做出更好的决策。


用一根棍分开不同颜色小球,在放更多球之后,仍然适用。



我们可以在中间斜放一根直线将其分开,随后又在桌上放了更多的球,有一个球站错了类别。




这样放置我们以后在加其他小球这依然是一个良好的分割线,因为我们有了容错的间隔(margin)。


我们再改变小球的位置



这样我们不能很好的分开两种球了,可以使用SVM,将维度提升



这样我们就可以通过svm分开两种类别。在 SVC 中,我们可以用高斯核函数来实现这个功能:kernel='rbf'


支持向量机的基本模型是定义在特征空间上的间隔最大的线性分类器。它是一种二分类的模型,当采用了核技巧之后,支持向量机可以用于非线性分类。


  • 当训练数据线性可分的时候,通过硬间隔最大化,学习得到一个线性可分支持向量机。
  • 当训练数据近似线性可分时,通过软间隔最大化,学习一个线性支持向量机。
  • 当训练数据不可分的时候,通过使用核技巧以及软间隔最大化,学一个非线性支持向量机。


左图的边际不及右边的边际margin大,我们选择右边的图作为边界最好的划分。因为在有新的点出现的时候左边图的边际会错误分类一些点,而右侧就能很好的分类。



SVM学习的目的在于找到具有最大边缘的超平面。 


SVM 是 N 维空间的分类超平面,它将空间切分成两部分。对于二维空间,它是一条线,对于三维空间,它是一个平面,对于更高维空间,它是超平面。


为了得到泛化性更好的分类器,分类平面应该应该不偏向于任何一类,并且距离两个样本都尽可能远,这种以最大化分类间隔为目标的线性分类器就是支持向量机。


硬间隔指的是让所有的样本都不在最大间隔之间,并位于正确的一边,如果出现异常值、或者样本不能线性可分,硬间隔无法实现。


软间隔指的是我们容忍一部分样本在最大间隔之内,甚至在错误的一边。软间隔可以应用在一些线性不可分的场景。  


惩罚参数 C  


C越大说明违反限制间隔的样本点带来的损失就越大,就要减少这些样本的数量,所以间隔就要越小。


C越小说明违反限制间隔的样本点带来的损失就越小,可以适当增大间隔,以增加模型的泛化能力。


 



支持向量机(二)+https://developer.aliyun.com/article/1544108?spm=a2c6h.13148508.setting.14.1fa24f0ewU5jCe

相关文章
|
机器学习/深度学习 自然语言处理 程序员
NLP:Transformer的简介(优缺点)、架构详解、案例应用之详细攻略
NLP:Transformer的简介(优缺点)、架构详解、案例应用之详细攻略
NLP:Transformer的简介(优缺点)、架构详解、案例应用之详细攻略
|
机器学习/深度学习 人工智能 数据可视化
机器学习:详解贝叶斯网络+例题分析
机器学习:详解贝叶斯网络+例题分析
3688 0
机器学习:详解贝叶斯网络+例题分析
|
5月前
|
存储 机器学习/深度学习 人工智能
构建AI智能体:八十一、SVD模型压缩的艺术:如何科学选择K值实现最佳性能
本文探讨了SVD(奇异值分解)在深度学习模型压缩中的应用。随着模型规模不断扩大,面临的存储、计算和能耗问题日益突出。SVD通过将大型矩阵分解为三个特殊矩阵(U、Σ、Vᵀ),并根据奇异值大小进行截断,实现模型的高效压缩。文章详细分析了SVD的数学原理、压缩机制和参数选择策略,重点讨论了如何通过能量保留、目标压缩率和拐点检测等方法确定最佳截断秩k。以一个500×300的用户-物品矩阵为例,实证显示k=32时能实现82.93%的压缩率,99.97%的能量保留和5.86倍计算加速,达到了精度损失与压缩收益的最佳平衡
440 5
|
存储 NoSQL Redis
Docker 部署 Redis
在使用 Docker 部署 Redis 时,为实现数据持久化,需正确挂载容器内的数据目录到宿主机。推荐命令如下: ``` docker run -d --name redis -v /mnt/data/redis:/data -p 6379:6379 redis ``` 该命令将宿主机的 `/mnt/data/redis` 目录挂载到容器的 `/data` 目录,确保 Redis 数据持久化。此路径更通用,适合大多数场景。避免使用不匹配的挂载路径,如 `/var/lib/redis` 或 `/mnt/data/redis` 到非默认目录,以防止数据无法正确持久化。
|
域名解析 存储 Linux
在CentOS 8 上安装和使用 Composer
Composer是一个 PHP 依赖管理器(类似于 Node.js 的 npm,或者 Python 的 pip),会拉取你的项目所依赖的所有 PHP 软件包,并且为你管理它们。它被所有现代化的 PHP 框架和平台所使用,例如: Laravel, Symfony, Drupal, 和 Magento 2。本文将为大家介绍在 CentOS 8 上安装 Composer 的几个步骤。
3771 0
在CentOS 8 上安装和使用 Composer
|
网络架构
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
965 0
|
数据管理 大数据 OLAP
AnalyticDB核心概念详解:表、索引与分区
【10月更文挑战第25天】在大数据时代,高效的数据库管理和分析工具变得尤为重要。阿里云的AnalyticDB(ADB)是一款完全托管的实时数据仓库服务,能够支持PB级数据的实时查询和分析。作为一名数据工程师,我有幸在多个项目中使用过AnalyticDB,并积累了丰富的实践经验。本文将从我个人的角度出发,详细介绍AnalyticDB的核心概念,包括表结构设计、索引类型选择和分区策略,帮助读者更有效地组织和管理数据。
685 3
|
机器学习/深度学习 数据采集 算法
支持向量机SVM:从数学原理到实际应用
支持向量机SVM:从数学原理到实际应用
1439 0
|
搜索推荐 Java 自然语言处理
计算文本相似度的几种方法
计算文本相似度的几种方法
1112 1
余三码和8421码的关系以及使用场景
余三码与8421码是两种不同的二进制编码方式,常用于表示十进制数。余三码是8421码加上3形成的无权码,具有自补性和进位信号特点,适合错误检测,但求和需修正。8421码是恒权码,方便二进制与十进制转换,常用于数字显示、数据传输和精确十进制运算。在计算机领域,两者各有应用场景,如BCD码用于七段显示器和精确计算,余三码则用于错误检测和简化算术操作逻辑设计。