非线性回归 过度拟合 模型选择|学习笔记

简介: 快速学习非线性回归,过度拟合,模型选择。

开发者学堂课程【机器学习入门-概念原理及常用算法:非线性回归 过度拟合 模型选择】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/355/detail/4184


非线性回归 过度拟合 模型选择


目录:

一、非线性回归

二 、过拟合

三 、模型选择

 

一、非线性回归

image.png/**

*将抛物线的数据进行简单的修改变得到了下方的这张图,通过观察可以发现,;图中的图形*形状是抛物线的形状,理论上与二次拟合的效果视为最佳,这种就被称之为二次非线性关*系图。

**/

 

二、过拟合 

Non-linear regression(Cont.)

l The input features can themselves include non-linearfeatures of data: f(x,0)=0o+01

1X.+x^2+…+0gxD=

l 2-0xj

l E.g., x : high temperature for da

y,

x^2 : (high temperature for day)2

/**

*x的多次方里面的高阶需求,使得我们可以通过高阶的需求来实现非线性的linear *regression

*辅助理解视图如下:

**/

image.png

//在之前的数据上加入二次方之后,图形也就成了下面的形状,由图可知,它非常好的拟合了数据的趋势。

image.png

//如果继续加大它的特征(从二次方加到十次方或者更大),则会出现过拟合的状况。如图所示:

image.png

  

三、模型选择

 image.png

//通过观察图形,可以发现 Training 的值在不断下降,而 Test 的值在到达某个临界值后便开始反弹。

Overfitting 模型的判定有很多种方式,运用的比较广泛的是通过 Training 和 Test 的值来进行判断其模型是否是 Overfitting 模型。由改图可知,模型的设计并不是越复杂越好,而是适用场景就足够了。

Regularization

l We can directly prevent large elntries in 0 by penalizingthe magnitude of its entries

l Leads to regularized loss minimization problem

 image.png

//图中的公式为参考公式,平方与i的值都是可变的;不同的值可以视为不同的正则化方式。通过这种方式可以不断的进行过拟合来获得一个好的模型选择。

//解决模型选择的问题可以使用七三分算法,将数据七三分,七的那一部分作为Training,三的那一部分作为 Test 。再者就是将数据分为两级。对于虚拟数据我们也可以使用七三分算法来验证。比如正择化的运用.

Evaluating ML algjorithms

l Break all data into training/testiing sets (e.g., 70%/30%)

l Break training set into training/viralidation set (e.g.,70%/30% again)

l Choose hyper-parameters using

l validation set

l Evaluate performance on the testing set

//常见的衡量算法的方式

Evaluating ML algorithms(Cont.)

l 衡量算法performance ,主要metric :

l Learning(Loss) curves , Accurac:y (percent correct overall test instances),Precision/Recall ,AUC(Area under .ROC curve)

l Accuracy , Computational Resources , Stability ,

评价的指标非常多

//对比区别

练习:

Which of the following can resultin unsatisfactory test performance in machine learning?

//下面哪种情况会导致一个不合格的performance

A.data snooping

B.sampling bias

C.overfitting

D.All of the above

//答案选ABC

相关文章
|
6月前
|
机器学习/深度学习 算法
大模型开发:什么是过拟合和欠拟合?你如何防止它们?
机器学习中,过拟合和欠拟合影响模型泛化能力。过拟合是模型对训练数据过度学习,测试集表现差,可通过正则化、降低模型复杂度或增加训练数据来缓解。欠拟合则是模型未能捕捉数据趋势,解决方案包括增加模型复杂度、添加特征或调整参数。平衡两者需通过实验、交叉验证和超参数调优。
703 0
|
机器学习/深度学习 算法
机器学习算法之欠拟合和过拟合
机器学习算法之欠拟合和过拟合
|
6月前
|
数据可视化 vr&ar
时间序列分析实战(七):多个变量的ARIMA模型拟合
时间序列分析实战(七):多个变量的ARIMA模型拟合
|
4月前
|
人工智能 Python
模型评估与选择:避免过拟合与欠拟合
【7月更文第18天】在人工智能的探险旅程中,打造一个既聪明又可靠的模型可不简单。就好比在茫茫人海中找寻那位“知心朋友”,我们需要确保这位“朋友”不仅能在训练时表现优异,还要能在新面孔面前一样游刃有余。这就引出了模型评估与选择的关键议题——如何避免过拟合和欠拟合,确保模型既不过于复杂也不过于简单。今天,我们就来一场轻松的“模型相亲会”,通过交叉验证、混淆矩阵、ROC曲线这些实用工具,帮你的模型找到最佳伴侣。
189 2
|
5月前
|
机器学习/深度学习 算法 Python
线性回归训练和预测代码详解
线性回归作为一种基础的回归分析方法,其核心思想和实现相对简单。本文通过详细的代码示例,介绍了线性回归模型的训练过程和预测函数的实现。希望能够帮助读者更好地理解和掌握这一基础算法。在实际应用中,线性回归可以作为一种初步的分析工具,为更复杂的模型提供参考和基础。
79 2
|
6月前
|
机器学习/深度学习
通过学习曲线识别过拟合和欠拟合
本文介绍了如何利用学习曲线识别机器学习模型中的过拟合和欠拟合问题。过拟合发生时,模型过于复杂,对训练数据过拟合,导致测试集表现不佳;欠拟合则是因为模型太简单,无法捕获数据模式,训练和测试集得分均低。学习曲线通过绘制训练和验证损失随训练样本增加的情况来辅助判断。对于过拟合,学习曲线显示训练损失低且随样本增加上升,验证损失降低但不趋近训练损失;欠拟合时,训练和验证损失都高,且两者随着样本增加缓慢改善。通过学习曲线,我们可以调整模型复杂度或采用正则化等方法优化模型泛化能力。
114 0
|
6月前
|
数据可视化 数据挖掘 计算机视觉
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
|
6月前
|
Serverless
R语言用于线性回归的稳健方差估计
R语言用于线性回归的稳健方差估计
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
|
机器学习/深度学习 算法
机器学习算法之线性回归的损失和优化
机器学习算法之线性回归的损失和优化
下一篇
无影云桌面