SVM(二):软间隔与正则化

简介: SVM(二):软间隔与正则化

2 软间隔与正则化



2.1 软间隔


硬间隔(hard margin)要求所有样本均满足约束:y i ( w T x i+ b ) ≥ 1 ( i = 1 , 2 , . . . m 即所有样本都必须划分正确。


软间隔(soft margin)允许某些样本不满足约束,即允许支持向量机在一些样本上出错。


在最大化间隔同时,不满足约束的样本应尽可能少,优化目标如下:

image.png

其中C > 0 是一个常数,为惩罚参数。当C 为无穷大时,会迫使所有样本满足约束。


I0/1是0/1损失函数:


image.png

由于I0/1非凸、非连续,常用其他函数,称为替代损失(surrogate loss),替代损失函数通常是凸的连续函数且是I0/1的上界:


image.png


20200310231931746.png


采用hinger loss,则


image.png


引入松弛变量(slack variables)

image.png

这仍是一个二次规划问题,可通过拉格朗日乘子法得到其拉格朗日函数:


image.png

其中,μ i≥ 0 , α i ≥ 0 均为拉格朗日系数。

优化目标变为:

image.png

该优化目标满足KTT条件,即


image.png


其对偶问题为:


image.png

先求优化函数对于w , b , ξ 的极小值, 接着再求拉格朗日乘子α , μ 的极大值。


L ( w , b , α , ξ , μ ) 关于w , b , ξ的极小值可以通过分别求偏导得到:


image.png


将其代入L ( w , b , α , ξ , μ ) 优化目标最终如下:


image.png



此时,优化函数仅有α 做为参数,可采用SMO(Sequential Minimal Optimization)求解。


2.2 正则化


I0/1是0/1损失函数替换为其他损失函数可以得到其他学习模型,如使用对率损失函数1log替代,相当于使用对率回归模型(实际上,支持向量机与对率回归的优化目标相近,通常性能也相当。对率回归的优势在于输出具有自然的概率意义,即在给出预测标记的同时也给出了概率,而支持向量机不具有概率意义)。


这些模型的性质与所用的替代函数直接相关,且具有共性:


第一项描述划分超平面的“间隔”大小

另一项image.png描述训练集上的误差

更一般的形式如下:


image.png

Ω(f):结构风险(structural risk),描述模型f的某些性质,为引入领域知识和用户意图提供了途径,有助于削减假设空间,降低过拟合风险。


image.png经验风险(empirical risk),描述模型预测结果与训练数据的契合程度


C :正则化常数,对上述两者进行折中


正则化可理解为一种“罚函数法”,即对不希望的结果施以惩罚,使优化过程趋于希望目标。从贝叶斯估计的角度来看,正则化项被认为提供了模型的先验概率。


在正则化问题中,C称为正则化常数,Ω ( f )称为正则化项,L p范数是常用的正则化项。


L 2 范数∣ ∣ w ∣ ∣ 2 倾向于w 的分量取值尽量平衡,即非零分量个数尽量稠密

L 0 范数∣ ∣ w ∣ ∣0 和L 1 范数∣ ∣ w ∣ ∣ 1 倾向于w 的分量取值尽量稀疏,即非零分量个数尽量少

相关文章
|
6天前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
18 1
|
6天前
|
算法 Linux Python
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
|
6天前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于PyTorch实战权重衰减——L2范数正则化方法(附代码)
基于PyTorch实战权重衰减——L2范数正则化方法(附代码)
65 0
|
6天前
|
机器学习/深度学习 资源调度 算法
深度学习模型数值稳定性——梯度衰减和梯度爆炸的说明
深度学习模型数值稳定性——梯度衰减和梯度爆炸的说明
23 0
|
6天前
|
人工智能 测试技术 网络架构
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
【2月更文挑战第25天】DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
53 7
DenseMamba:大模型的DenseNet时刻,Mamba和RetNet精度显著提升
|
9月前
|
机器学习/深度学习 存储 自然语言处理
TCN时间卷积网络
翻译:《Sequence Modeling Benchmarks and Temporal Convolutional Networks 》
212 0
|
11月前
|
数据可视化
探索不同学习率对训练精度和Loss的影响
探索不同学习率对训练精度和Loss的影响
190 0
|
PyTorch 算法框架/工具
在pytorch中,模型权重的精度会影响模型在cpu上的推理速度吗?
在用pytorch训练模型时发现,模型训练的eopch越多,保存模型时模型权重的精度越好,模型在cpu上的推理的速度越慢,是因为模型权重精度会影响推理速度吗?如何调整pytorch模型参数的精度?
444 0
|
机器学习/深度学习 安全 Perl
时间卷积网络TCN:时间序列处理的新模型
时间卷积网络TCN:时间序列处理的新模型
648 0
时间卷积网络TCN:时间序列处理的新模型