支持向量机
支持向量机(Support Vector Machine),简称SVM,是一种经典的二分类模型,属于监督学习算法。
一、间隔与支持向量
支持向量机的目标是确定一个对样本的分类结果最鲁棒的线性分类器,即找到一个具有最大间隔的划分超平面。为此以间隔为优化目标,可将其转化为一个凸二次规划问题。
1、公式及推导过程:
2、什么是支持向量;
解:距离超平面最近的训练样本点使上式的等号成立,它们被称为“支持向量”
3、如何寻找最优的超平面;
解:首先量化最优指标(这里即为“间隔”);然后再求其最值(这里使最大化“间隔”),寻求约束条件;最后求解。
二、对偶问题
1、对一中第4小问公式如何求解;
解:利用拉格朗日乘子法得到其对偶问题,利用SMO算法求解对偶问题;
三、核函数
1、核函数产生的背景;
解:之前我们讨论的训练样本都是线性可分的,但在现实任务中,这样的情况出现的很少;对于这样的问题,解决办法就是将原始样本空间映射到一个更高维度的空间,使样本在这个空间线性可分(注:如果样本的原始空间是有限维度的,那么一定存在一个更高维的空间使其线性可分)
2、对原始空间线性不可分,但存在高维特征空间使其线性可分,试推导出其目标函数;(这个和前面的原始空间线性可分的模型类似,只是将原始空间映射到高位特征空间ф(x)而已,最后将ф(xi)的转置*ф(xj)定义为核函数而已)
四、软间隔与正则化
1、背景:
在前面的讨论中,我们一直假设训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分。然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分,退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果是不是由于过拟合造成的。>
2、什么是“软间隔”;
解:“软间隔就是允许支持向量在一些样本上出错”
3、 掌握“软间隔”的优化目标;知道常用的替代损失函数;理解如何求解目标函数最优解;
解:与前面方法类似,利用拉格朗日乘子法求解;
五、支持向量回归
1、 掌握整个支持向量回归的建模过程;
2、明白其中的公式推导;
六、核方法
1、知道”表示定理“;
2、以线性判别分析为例,演示如何通过核化来对其进行非线性拓展,从而得到核线性判别分析。
以下为参考链接导图:西瓜书自学笔记分享第五章 - 知乎