SVM(二):软间隔与正则化

简介: SVM(二):软间隔与正则化

2 软间隔与正则化



2.1 软间隔


硬间隔(hard margin)要求所有样本均满足约束:y i ( w T x i+ b ) ≥ 1 ( i = 1 , 2 , . . . m 即所有样本都必须划分正确。


软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。


在最大化间隔同时,不满足约束的样本应尽可能少,优化目标如下:

image.png

其中C > 0 是一个常数,为惩罚参数。当C 为无穷大时,会迫使所有样本满足约束。


I0/1是0/1损失函数:


image.png

由于I0/1非凸、非连续,常用其他函数,称为替代损失(surrogate loss),替代损失函数通常是凸的连续函数且是I0/1的上界:


image.png


20200310231931746.png


采用hinger loss,则


image.png


引入松弛变量(slack variables)

image.png

这仍是一个二次规划问题,可通过拉格朗日乘子法得到其拉格朗日函数:


image.png

其中,μ i≥ 0 , α i ≥ 0 均为拉格朗日系数。

优化目标变为:

image.png

该优化目标满足KTT条件,即


image.png


其对偶问题为:


image.png

先求优化函数对于w , b , ξ 的极小值, 接着再求拉格朗日乘子α , μ 的极大值。


L ( w , b , α , ξ , μ ) 关于w , b , ξ的极小值可以通过分别求偏导得到:


image.png


将其代入L ( w , b , α , ξ , μ ) 优化目标最终如下:


image.png



此时,优化函数仅有α 做为参数,可采用SMO(Sequential Minimal Optimization)求解。


2.2 正则化


I0/1是0/1损失函数替换为其他损失函数可以得到其他学习模型,如使用对率损失函数1log替代,相当于使用对率回归模型(实际上,支持向量机与对率回归的优化目标相近,通常性能也相当。对率回归的优势在于输出具有自然的概率意义,即在给出预测标记的同时也给出了概率,而支持向量机不具有概率意义)。


这些模型的性质与所用的替代函数直接相关,且具有共性:


第一项描述划分超平面的“间隔”大小

另一项image.png描述训练集上的误差

更一般的形式如下:


image.png

Ω(f):结构风险(structural risk),描述模型f的某些性质,为引入领域知识和用户意图提供了途径,有助于削减假设空间,降低过拟合风险。


image.png经验风险(empirical risk),描述模型预测结果与训练数据的契合程度


C :正则化常数,对上述两者进行折中


正则化可理解为一种“罚函数法”,即对不希望的结果施以惩罚,使优化过程趋于希望目标。从贝叶斯估计的角度来看,正则化项被认为提供了模型的先验概率。


在正则化问题中,C称为正则化常数,Ω ( f )称为正则化项,L p范数是常用的正则化项。


L 2 范数∣ ∣ w ∣ ∣ 2 倾向于w 的分量取值尽量平衡,即非零分量个数尽量稠密

L 0 范数∣ ∣ w ∣ ∣0 和L 1 范数∣ ∣ w ∣ ∣ 1 倾向于w 的分量取值尽量稀疏,即非零分量个数尽量少

相关文章
【状态估计】非线性受控动力系统的线性预测器——Koopman模型预测MPC(Matlab代码实现)
【状态估计】非线性受控动力系统的线性预测器——Koopman模型预测MPC(Matlab代码实现)
192 0
|
6月前
|
算法 计算机视觉
YOLOv3 的非极大值抑制(NMS)算法是如何工作的,它对最终检测结果有何影响?
YOLOv3 的非极大值抑制(NMS)算法是如何工作的,它对最终检测结果有何影响?
|
3月前
|
TensorFlow 算法框架/工具
【Tensorflow+Keras】学习率指数、分段、逆时间、多项式衰减及自定义学习率衰减的完整实例
使用Tensorflow和Keras实现学习率衰减的完整实例,包括指数衰减、分段常数衰减、多项式衰减、逆时间衰减以及如何通过callbacks自定义学习率衰减策略。
63 0
|
5月前
|
机器学习/深度学习 算法
**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。
【6月更文挑战第28天】**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。数据从输入层流经隐藏层到输出层,计算预测值。接着,比较预测与真实值计算损失。然后,从输出层开始,利用链式法则反向计算误差和梯度,更新权重以减小损失。此过程迭代进行,直到损失收敛或达到训练次数,优化模型性能。反向传播实现了自动微分,使模型能适应训练数据并泛化到新数据。
69 2
|
5月前
|
机器学习/深度学习 C++
【chatgpt问答记录】权重衰减vs正则化
【chatgpt问答记录】权重衰减vs正则化
38 2
|
6月前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
109 1
|
6月前
|
算法 Linux Python
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
YOLOv3的NMS参数调整对模型的准确率和召回率分别有什么影响?
|
6月前
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
|
6月前
|
机器学习/深度学习 算法
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据
R语言非参数方法:使用核回归平滑估计和K-NN(K近邻算法)分类预测心脏病数据