SVM（二）：软间隔与正则化-阿里云开发者社区

SVM（二）：软间隔与正则化

2022-11-21 282

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SVM（二）：软间隔与正则化

2.1 软间隔

硬间隔（hard margin）要求所有样本均满足约束：y _i( w ^Tx_i+ b ) ≥ 1 ( i = 1 , 2 , . . . m 即所有样本都必须划分正确。

软间隔（soft margin）允许某些样本不满足约束，即允许支持向量机在一些样本上出错。

在最大化间隔同时，不满足约束的样本应尽可能少，优化目标如下：

其中C > 0 是一个常数，为惩罚参数。当C 为无穷大时，会迫使所有样本满足约束。

I_0/1是0/1损失函数：

由于I_0/1非凸、非连续，常用其他函数，称为替代损失（surrogate loss），替代损失函数通常是凸的连续函数且是I_0/1的上界：

采用hinger loss，则

引入松弛变量（slack variables）

这仍是一个二次规划问题，可通过拉格朗日乘子法得到其拉格朗日函数:

其中，μ i≥ 0 , α i ≥ 0 均为拉格朗日系数。

优化目标变为：

该优化目标满足KTT条件，即

其对偶问题为：

先求优化函数对于w , b , ξ 的极小值, 接着再求拉格朗日乘子α , μ 的极大值。

L ( w , b , α , ξ , μ ) 关于w , b , ξ的极小值可以通过分别求偏导得到：

将其代入L ( w , b , α , ξ , μ ) 优化目标最终如下：

此时，优化函数仅有α 做为参数，可采用SMO（Sequential Minimal Optimization）求解。

I_0/1是0/1损失函数替换为其他损失函数可以得到其他学习模型，如使用对率损失函数1log替代，相当于使用对率回归模型（实际上，支持向量机与对率回归的优化目标相近，通常性能也相当。对率回归的优势在于输出具有自然的概率意义，即在给出预测标记的同时也给出了概率，而支持向量机不具有概率意义）。

这些模型的性质与所用的替代函数直接相关，且具有共性：

第一项描述划分超平面的“间隔”大小

另一项描述训练集上的误差

更一般的形式如下：

Ω(f)：结构风险（structural risk），描述模型f的某些性质，为引入领域知识和用户意图提供了途径，有助于削减假设空间，降低过拟合风险。

经验风险（empirical risk），描述模型预测结果与训练数据的契合程度

C ：正则化常数，对上述两者进行折中

正则化可理解为一种“罚函数法”，即对不希望的结果施以惩罚，使优化过程趋于希望目标。从贝叶斯估计的角度来看，正则化项被认为提供了模型的先验概率。

在正则化问题中，C称为正则化常数，Ω ( f )称为正则化项，L p范数是常用的正则化项。

L 2 范数∣ ∣ w ∣ ∣ 2 倾向于w 的分量取值尽量平衡，即非零分量个数尽量稠密

L 0 范数∣ ∣ w ∣ ∣0 和L 1 范数∣ ∣ w ∣ ∣ 1 倾向于w 的分量取值尽量稀疏，即非零分量个数尽量少