分类学习:的思想就是在训练集的样本空间找到一个划分超平面,将不同类别的样本分开。但能将训练样本分开的划分超平面可能有很多,如何去寻找做合适的超平面成为我们需要研究的问题。
直观上看,应该去找位于两类训练样本“正中间”的划分超平面,因为该划分超平面对训练样本局部扰动的“容忍”性最好。
支持向量和间隔:支持向量即距离超平面最近的这几个训练样本点使得下方等号成立,他们被称为“支持向量”。两个异类支持向量到超平面的距离之和成为“间隔”。
核函数:我们假设训练样本是线性可分的,即存在一个划分超平面能将训练样本正确分类,然而在显示任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对于这样的问题,我们可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面。幸运的是,如果原始空间有限,即属性数有限,那么一定存在一个高维特征空间使样本可分。
软间隔和正则化:在前面的讨论中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开。然而,在现实任务 中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.,缓解该问题的一个办法是允许支持向量机在一些样本上出错。为此,要引入 “软间隔”(soft margin)的概念。
硬间隔:所有样本均满足约束,即所有样本必须划分正确,这成为硬间隔。软间隔则是允许某些样本不满足约束。
支持向量机回归:对于样本(x , y),传统回归模型通常直接基于模型输出f(x)与真实输出y之间的差别来计算损失,当且仅当f(x)与y完全相同时,损失才为零。与此不同,支持向量机回归(SVR)假设我们能容忍f(x)与y之间最多有e的偏差,即仅当f(x)与y之间的差别绝对值大于e时才计算损失。
核方法: 若不考虑“偏移项" 则无论 SVM还是SVR,学得的模型总能表示成核函数的线性组合。
通过“核化”(即引入核函数)来将线性学习器拓展为非线性学习器。从而达到解决非线性问题的目的。