2 软间隔与正则化
2.1 软间隔
硬间隔(hard margin)要求所有样本均满足约束:y i ( w T x i+ b ) ≥ 1 ( i = 1 , 2 , . . . m 即所有样本都必须划分正确。
软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。
在最大化间隔同时,不满足约束的样本应尽可能少,优化目标如下:
其中C > 0 是一个常数,为惩罚参数。当C 为无穷大时,会迫使所有样本满足约束。
I0/1是0/1损失函数:
由于I0/1非凸、非连续,常用其他函数,称为替代损失(surrogate loss),替代损失函数通常是凸的连续函数且是I0/1的上界:
采用hinger loss,则
引入松弛变量(slack variables)
这仍是一个二次规划问题,可通过拉格朗日乘子法得到其拉格朗日函数:
其中,μ i≥ 0 , α i ≥ 0 均为拉格朗日系数。
优化目标变为:
该优化目标满足KTT条件,即
其对偶问题为:
先求优化函数对于w , b , ξ 的极小值, 接着再求拉格朗日乘子α , μ 的极大值。
L ( w , b , α , ξ , μ ) 关于w , b , ξ的极小值可以通过分别求偏导得到:
将其代入L ( w , b , α , ξ , μ ) 优化目标最终如下:
此时,优化函数仅有α 做为参数,可采用SMO(Sequential Minimal Optimization)求解。
2.2 正则化
I0/1是0/1损失函数替换为其他损失函数可以得到其他学习模型,如使用对率损失函数1log替代,相当于使用对率回归模型(实际上,支持向量机与对率回归的优化目标相近,通常性能也相当。对率回归的优势在于输出具有自然的概率意义,即在给出预测标记的同时也给出了概率,而支持向量机不具有概率意义)。
这些模型的性质与所用的替代函数直接相关,且具有共性:
第一项描述划分超平面的“间隔”大小
另一项描述训练集上的误差
更一般的形式如下:
Ω(f):结构风险(structural risk),描述模型f的某些性质,为引入领域知识和用户意图提供了途径,有助于削减假设空间,降低过拟合风险。
经验风险(empirical risk),描述模型预测结果与训练数据的契合程度
C :正则化常数,对上述两者进行折中
正则化可理解为一种“罚函数法”,即对不希望的结果施以惩罚,使优化过程趋于希望目标。从贝叶斯估计的角度来看,正则化项被认为提供了模型的先验概率。
在正则化问题中,C称为正则化常数,Ω ( f )称为正则化项,L p范数是常用的正则化项。
L 2 范数∣ ∣ w ∣ ∣ 2 倾向于w 的分量取值尽量平衡,即非零分量个数尽量稠密
L 0 范数∣ ∣ w ∣ ∣0 和L 1 范数∣ ∣ w ∣ ∣ 1 倾向于w 的分量取值尽量稀疏,即非零分量个数尽量少