SVM从入门到精通(一)-阿里云开发者社区

SVM从入门到精通(一)

2018-07-06 1098

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

我是标题党【doge】······
最近在看SVM算法的原理，之前只知道用，但是对理论推导并不是很明白，这次算是复习一下，加深理解。

从感知机说起

要深入理解SVM，首先要从感知机说起。
什么是感知机呢？

感知机(perceptron)是二类分类的线性分类模型。
假设输入空间为χ⊆Rn,输出空间是y=−1,+1.由输入空间到输出空间的如下函数f(x)=sign(ω⋅x+b)称为感知机。

也就是说，我的ω参数和b参数，确定了一个分离超平面，将训练数据集划分为两个部分，分别为正类和负类。因此，我们需要知道ω和b的值，确定这个超平面，那么来了一个新的数据，通过计算和这个超平面的距离，就知道它属于哪个类别了。

因此，我们的任务就变成了求ω和b的值是什么，从而确定分离超平面。
在这里，我们有一个前提条件，就是数据集是线性可分的。

那么如何求这两个参数呢？我们需要确定一个学习策略，即定义经验损失函数并将其极小化。也就是我们常说的loss.

在感知机中，我们选择的loss为误分类点到超平面的总距离，让这个总距离最小，这就是我们的优化目标。特征空间中任意一点x0到超平面的距离为：

1 ∥ ω ∥ | ω \cdot x 0 + b |

对于误分类的数据

(xi,yi)(xi,yi)来说，

yi(ω⋅x+b)<0yi(ω⋅x+b)<0.因此，误分类点到分类超平面的距离就是

−1∥ω∥yi|ω⋅x+b|−1‖ω‖yi|ω⋅x+b|
因此，所有误分类点到分类超平面的距离就是：

- 1 ∥ ω ∥ \sum x i \in M y i (ω \cdot x + b)

由于

1∥ω∥1‖ω‖为常数，因此不考虑它。于是，我们得到了感知机的损失函数：

L (ω, b) = - \sum x i \in M y i (ω \cdot x i + b)

且该损失函数关于

ωω和b连续可导。

有了学习策略，也就是我们的经验函数，接下来就是学习算法了。我们将学习问题转化为了优化问题，解决方法就是随机梯度下降（SGD），这里不展开说了。
对于感知机，学习算法有原始形式和对偶形式。

那么，对偶形式就可以如下表示了：
1. 参数为α,b，赋初值为0.
2. 在训练集中选取数据(xi,yi)
3. 如果(∑Nj=1αjyjxj⋅x+b)<=0:

α i \leftarrow α i + η

b \leftarrow b + η y i

4. 转2，直到没有误分类的点。

对偶形式中，训练集仅以内积的形式出现，为了方便，可以预先算出来存储下来，这个矩阵就是Gram矩阵

G = [x i \cdot x j] N \times N