正则化(Regularization)

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 正则化是防止机器学习过拟合的策略,通过在损失函数中添加惩罚项(如L1或L2范数)来降低模型复杂度,提高泛化能力。L1正则化产生稀疏权重,倾向于使部分权重变为0,而L2正则化使所有权重变小,具有平滑性。正则化强度由λ控制,λ越大,泛化能力越强,但可能导致欠拟合。

概念

正则化是机器学习和统计建模中的一种方法,用于防止模型过拟合(overfitting)。过拟合发生在模型对训练数据的学习过于特定,以至于它不能很好地泛化到未见过的测试数据。正则化通过在模型的损失函数中加入一个惩罚项来工作,这个惩罚项通常是基于模型参数的复杂度来计算的。这样做的目的是减少模型复杂度,鼓励模型学习到更简单、更具有泛化能力的规律,而不是仅仅记住训练数据中的噪声或偶然特性。


欠拟合:还没有拟合到位,训练集和测试集的准确率都还没有达到最高,学的还不到位。

过拟合:拟合过度,训练集准确率升高的同时,测试集准确率反而降低。

拟合:过拟合前训练集和测试集准确度都达到最高时刻。真正工作时我们是奔着过拟合状态去调的。但最后模型没有过拟合。


正则化就是为了防止过拟合出现的,它可以增加模型的鲁棒性。鲁棒性调优就是让模型拥有更好的鲁棒性,让模型的泛化能力和推广能力更加强大。

本质

正则化的本质就是牺牲在训练集上的准确率来提高推广能力,W在数值上越小越好,这样能抵抗数值的扰动。同时为了保证模型的正确率W又不能极小。所以我们给损失函数加上一个惩罚项,这里面损失函数就是原来固有的损失函数,比如MSE,CE(Cross Entropy),加上一个惩罚项。

L1 和 L2 正则项

概念

在数学中,我们称L1,L2为范数,即空间中向量到原点的距离。

我们称其为曼哈顿距离


我们称其为欧式距离(平方)

L-P范数

其中,岭回归实际上就是MSE+L2正则,Lasso回归就是MSE+L1正则

对于任何算法的损失函数,我们都可以加入正则项来提升模型的泛化能力。

特性

L1正则具有稀疏性,它会使有点w趋于0,有的w会相对较大。

L2正则具有平滑性,它会使w整体变小。

如果损失函数加上正则项,那么导函数即等于多了正则项的导函数,即原来MSE的导函数和L1或L2的导函数。那么梯度就是这么两部分组成了。每次减小的幅度就是η*(MSE‘+L1’/L2‘)。这会使得参数调整时多出一部分更新,这部分更新会让w朝着原点0靠近。



当λ越大,泛化能力越强。

那么,造成L1与L2差异的原因是什么呢?

这不是等比例的缩放,而是等距缩放,这会导致最优解落到轴线上导致wi置零。这就是为什么L1产生的w矩阵较为稀疏。这个特性同样可以做特征选择,降低维度。

这说明当wi大时,调整幅度就大,wi小时,调整幅度就小。这样的调整有助于最优解渐进于原点。

目录
相关文章
|
人工智能 数据可视化 BI
HR必看!用工成本计算居然藏着这些猫腻?手把手教你算准每分钱
用工成本计算远比想象中复杂,隐藏的猫腻让90%的HR新手踩坑。本文从实际案例出发,解析用工成本构成,包括基础项、隐藏项及隐性支出,并揭示三大常见计算雷区。同时,推荐智能系统助力精准核算,通过数字化工具实现成本管控优化,如薪酬结构调整、弹性福利积分制等方法,为企业降本增效。未来,借助先进技术,用工成本管理将更加科学高效。
821 12
|
10月前
|
机器学习/深度学习 编解码 算法
对三种雷达信号调制类型的识别及MATLAB实现
对三种雷达信号调制类型的识别及MATLAB实现
|
弹性计算 缓存 安全
阿里云服务器ECS收费标准参考,2核4G配置ECS实例规格整理
阿里云提供多种2核4G ECS实例,如计算型c7、经济型e、u1等,价格不等,从68.0元/月到203.0元/月。ECS通用算力型u1实例采用高性能Intel处理器,网络收发包能力达30万PPS。经济型e实例基于Intel Xeon Platinum,适合入门级需求。2核4G服务器支持的并发访问人数依赖于软件效率、带宽、应用架构和用户行为等因素。更多信息请查看阿里云ECS产品页。
766 1
阿里云备案流程、操作步骤及所需时间图文详解
阿里云网站一共经过五步骤,先提交材料到阿里云初审,阿里云初审通过后提交到管局,用户进行工信部短信核验,最后等待管局审核即可。整个过程快的话2天即可搞定,慢的话需要20多天左右
3177 0
阿里云备案流程、操作步骤及所需时间图文详解
|
安全 网络性能优化 网络安全
别再让网络瓶颈困扰你!掌握这十种交换机接口模式,提升你的网络布局技能
【8月更文挑战第23天】交换机作为网络核心,其接口模式直接影响网络布局与性能。本文介绍了十大常见接口模式及其配置实例,包括基础接入模式、优化布线的干道模式、动态学习相邻交换机VLAN信息的动态中继协议模式、固定分配VLAN的静态接入模式、确保语音优先传输的语音VLAN模式、指定默认VLAN的native模式、增加带宽与可靠性的链路聚合及EtherChannel模式、保障网络安全的端口安全模式以及确保关键业务流畅传输的QoS模式。理解并掌握这些模式对于构建高效稳定的网络至关重要。
697 1
|
机器学习/深度学习 人工智能 分布式计算
因果推断:效应估计的常用方法及工具变量讨论
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
3135 0
因果推断:效应估计的常用方法及工具变量讨论
|
机器学习/深度学习 算法
【机器学习】不同决策树的节点分裂准则(属性划分标准)
决策树的不同节点分裂准则,包括原始决策树的节点分裂准则、ID3算法的信息增益、C4.5算法的信息增益比以及CART算法的平方根误差最小化和基尼指数。
689 1
|
机器学习/深度学习 算法 计算机视觉
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
1085 2
|
存储 弹性计算 Cloud Native
2024年 | 1月云大使返佣规则
①推荐企业认证新用户首购最高可拿首购订单实付金额的45%奖励。②1月首单推广实付金额≥79元,领50元奖励。③重启推广新注册用户关联拥有30天保护期。④1月【2024开门红】达标激励活动,拉新首购达到相应阶段可额外获得最高4000元奖励!⑤调整大使等级升级人数门槛。⑥调整等级计数订单金额门槛。
2024年 | 1月云大使返佣规则
|
监控 JavaScript 前端开发
Vue 项目性能优化指南:提升应用速度与效率
Vue 项目性能优化指南:提升应用速度与效率