八、过拟合问题

简介: 八、过拟合问题

1、过拟合-overfitting定义



如果我们设置过多的特征,通过机器学习获得的假设函数将会和实验数据高度重合(成本函数的值将会十分接近于0),但是这样会使得获得的模型不能较好地预测新的样本数据值,这种问题叫做过拟合问题。通俗地说,就是学习出来的模型不具有良好的“推广”性(generalize),实用性很差。


15aa02361b3142fd8a46a9c4234a5e6c.png

095cb28205544184a7bcb4733e1b3782.png



2、怎样处理过拟合问题


方法一:


减少特征数量,可以通过手动选择保留哪些特征,或者通过“模型选择”算法来实现特征筛选。

方法二:


归一化-Regularization,这种方法不需要减少特征数量,但是需要减少特征项的大小;归一化对于特征值很多时会取得较好的效果,尤其是各个特征对于结果值都有所贡献的时候。



3、归一化



为了应对过拟合问题,可以通过增加特征项在成本函数中的成本值来克服过拟合问题。例如,假如我们想使得下面的函数更加偏向二次函数:

θ0+θ1x+θ2x2+θ3x3+θ4x4


我们想要减少三次方项 θ3x3和四次方项  θ4x4的影响,同时不将这两项从假设函数中删除,我们可以在成本函数中针对三次方项 θ3x3和四次方项 θ4x4增加两项惩罚项:


image.png


在成本函数中增加了两项罚项之后,为了使得最终成本函数最小化,最终参数 θ3和 θ 4 θ4的值必定比较小,从而减小了高次方项的影响,可以缓解过拟合问题。


上述方式的问题在于,给予哪些特征项参数惩罚很难确定,因为很难判断哪些特征项之间有较强的相关性,同时惩罚项的系数确定也是一个问题,系数的选择既不能太大也不能太小。所以有下述通用归一化成本函数:


image.png


其中, λ是归一化参数,当λ取值过大时,会造成欠拟合问题,如除了参数 θ0之外,其他参数均取值为0;若  λ取值过小,则不能起到消除过拟合的作用,还是可能出现过拟合问题。



3.1 线性回归归一化


对归一化之后的成本函数使用梯度下降法的流程如下所示:

b14b21b132b04a1a8a94a40f5f1ea4c4.png

将归一化项提出来之后可以变为以下的形式:


57f316b4e95c4b2f84b8632a9f9414ec.png

其中, 1−αmλ项小于1,所以相对于不归一化处理的梯度下降更新式来说,只是将 θ项进行了缩小处理。


使用了归一化的正规方程的形式如下所示:


905e5cc80c674d86b143b0dd2c406aa8.png



使用归一化还可以解决矩阵  XTX不可逆的问题,可以证明在 λ大于0的情况下, XTX+λ⋅L是可逆的。




3.2 逻辑回归归一化


对归一化之后的成本函数使用梯度下降法的流程如下所示:


33dee6dc676443eab9a8706e819775fe.png


成本函数的表示形式如下所示:

f9a6fcd214d3448ab1a273bd793b9165.png


相对于原本的逻辑回归成本函数,上述成本函数多出了最后的归一化项。






目录
打赏
0
0
0
0
6
分享
相关文章
IP电话交换机WebRTC使用方法一
WebRTC 简介 WebRTC 是网络实时通信的缩写(Web Real-Time Communication), 是一种支 持网页浏览器进行实时语音通话的技术。在 CooVox V2 IP PBX电话交换机 中成功运用该技术实现网 页分机,为企业用户提供了一个直接与客户沟通交流的免费平台。网页分机是指在 Web 浏览器中通过使用 WebRTC 的方式注册的分机号。客户可以通过企业网站直接与企业人员 通话寻求支持。
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
人工智能在虚拟客服中的关键作用:提升交互体验与服务效率
439 90
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
457 15
“网”罗天下,一键搞定:netsh命令的花式玩法与超实用攻略
`netsh`是Windows系统中强大的网络配置和管理工具,支持本地或远程修改网络设置。常用功能包括:显示和配置网络接口、无线网络管理、防火墙规则设置、网络配置备份与还原、远程管理等。通过`netsh`命令,用户可以轻松管理IP地址、启用/禁用网络接口、添加或删除无线网络配置文件、配置防火墙规则,并进行网络故障排查。掌握这些命令能大幅提升网络管理和维护效率。
564 11
解锁数据管理的无限可能——探索 Teable 多维表格
Teable 是一个基于 Postgres 构建的企业级多维表格解决方案,提供卓越性能、灵活多维表格、丰富视图、精细权限管理、实时协作及自动化工作流等核心特性,支持私有部署,助力企业高效管理海量数据,加速数字化转型。
CSS 提高性能的方法
【10月更文挑战第24天】在实际应用中,还需要根据具体项目的特点和需求,灵活选择和组合这些方法,不断进行优化和改进。同时,随着技术的不断发展,也需要持续关注新的性能优化技巧和最佳实践,以保持在性能优化方面的领先地位。你对 CSS 性能优化还有哪些深入的思考和经验呢?欢迎进一步交流和分享。
Java中对象几种类型的内存分配(JVM对象储存机制)
Java中对象几种类型的内存分配(JVM对象储存机制)
185 5
Java中对象几种类型的内存分配(JVM对象储存机制)
如何学好JavaScript:从初学者到专家的学习指南
JavaScript是一门强大的编程语言,用于在网页上创建交互性和动态性。无论你是初学者还是有经验的开发者,学好JavaScript都是一个有价值的追求。这篇文章将指导你如何系统地学习JavaScript,并逐步提升你的技能水平,从初学者到专家。
如何修改ELEMENT组件中的padding间距-样式名不能重复问题
如何修改ELEMENT组件中的padding间距-样式名不能重复问题
【11.10】现代密码学1——密码学发展史:密码学概述、安全服务、香农理论、现代密码学
【11.10】现代密码学1——密码学发展史:密码学概述、安全服务、香农理论、现代密码学
363 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等