SVM-线性可分支持向量机-阿里云开发者社区

SVM-线性可分支持向量机

2017-11-08 1034

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

如果您想体验更好的阅读：请戳这里littlefish.top

函数间隔和几何间隔

给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为

w * \cdot x + b * = 0

以及相应的分类决策函数

f (x) = s i g n (w * \cdot x + b *)

称为线性可分支持向量机。

对于给定训练集合T和超平面(w,b)，定义超平面(w,b)关于样本点(xi,yi)的函数间隔为

γ^i = y i (w \cdot x i + b)

定义超平面(w,b)关于训练数据集T的函数间隔为超平面(w,b)关于T中所有样本点(xi,yi)的函数间隔之最小值，

γ^= m i n i = 1, . . ., N γ^i

对于给定的训练数据集和超平面(w,b)，定义超平面(w,b)关于样本(xi,yi)的几何间隔为

γ^i = y i (w | | w | | \cdot x i + b | | w | |)

定义超平面(w,b)关于训练数据集T的几何间隔为超平面(w,b)关于T中所有样本点(xi,yi)的几何间隔之最小值

γ = m i n i = 1, . . ., N γ i

从而得到几何间隔和函数间隔的关系:

γ = γ ^ i | | w | |

间隔最大化

对数据集合找到几何间隔最大的超平面意味着以充分大的确信度来对训练数据进行分类。

最大化超平面可表示为：

m a x w, b γ s . t . y i (w | | w | | \cdot x i + b | | w | |) \geq γ, i = 1, . . ., N

即最大化超平面(w,b)关于训练结合的间隔γ，约束条件表示的超平面(w,b)关于每个训练样本点的几何间隔至少为γ。

而函数间隔对于上述公式并没有影响，假设按比例改变为λw和λb，那么函数间隔改变为λγ^

改变为相应的函数距离，如下

m a x w, b γ ^ | | w | | s . t . y i (w \cdot x i + b) \geq γ^, i = 1, . . ., N

由于分母和分子同时拥有λ，因此成比例改变并不会对函数间隔产生影响，从而对目标函数的优化也没有影响。

令γ^=1，代入上式，最大化1||w||等价于最小化12||w||，从而得到线性可分支持向量机学习的最优化问题

m i n w, b 1 2 | | w | | 2 s . t . y i (w \cdot x i + b) - 1 \geq 0, i = 1, 2, . . ., N

这是一个凸二次规划问题。

支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector），即

y i (w \cdot x i + b) = 1

对于y=+1的正例来说，支持向量在超平面

H 1 : w \cdot x + b = 1

对于y=-1的负例来说，支持向量在超平面

H 2 : w \cdot x + b = - 1

如图中， H1和H2平行，之间形成一条长带，其宽度为2||w||。在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用，如果移动支持向量改变所求的解，但是如果在间隔边界（H1和H2）以外移动其他实例点，解都不会发生改变。

对偶算法

为了求解线性可分支持向量机的最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到最优解。

定义拉格朗日函数：

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 0 n α i y i (w \cdot x i + b) + \sum i = 1 N α i

其中，α=(α1,α2,...,αN)T为拉格朗日乘子向量。

根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题需要先求L(w,b,α)对(w,b)求极小，再对α求极大：

max α min w, b L (w, b, α)

minw,bL(w,b,α)

分别对w,b,α求偏导数，并令其等于0，将结果带入原公式中即得

min w, b L (w, b, α) = - 1 2 \sum i - = 1 N \sum j - = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

求minw,bL(w,b,α)对α的极大

max α - 1 2 \sum i - = 1 N \sum j - = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0, α i > 0, i = 1, 2, . . ., N

等价于：

min α 1 2 \sum i - = 1 N \sum j - = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0, α i > 0, i = 1, 2, . . ., N

线性可分支持向量机学习算法

(1)构造并求解约束最优化问题

min α 1 2 \sum i - = 1 N \sum j - = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i s . t . \sum i = 1 N α i y i = 0, α i > 0, i = 1, 2, . . ., N

(2)计算

w * = \sum i = 1 N α * i y i x i

并选择α∗的一个正分量α∗j，计算

b * = y i - \sum i = 1 N α * i y i (x i \cdot x j)

(3)求得分离超平面

w * \cdot x + b * = 0

分类决策函数

f (x) = s i g n (w * \cdot x + b *)

本文转自cococo点点博客园博客，原文链接：http://www.cnblogs.com/coder2012/p/4584673.html，如需转载请自行联系原作者

SVM-线性可分支持向量机

函数间隔和几何间隔

间隔最大化

支持向量

对偶算法

线性可分支持向量机学习算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景