非线性回归 过度拟合 模型选择

简介: 非线性回归 过度拟合 模型选择

非线性回归 过度拟合 模型选择

 

 

目录:

一、非线性回归

二、过拟合

三、模型选择

 

 

 

一,非线性回归

image.png

/**

*将抛物线的数据进行简单的修改变得到了下方的这张图,通过观察可以发现,;图中的图形*形状是抛物线的形状,理论上与二次拟合的效果视为最佳,这种就被称之为二次非线性关*系图。

**/

 

 

二,过拟合

 

Non-linear regression(Cont.)

l  The input features can themselves include non-linearfeatures of data: f(x,0)=0o+01

1X.+x^2+…+0gxD=

l  2-0xj

l  E.g., x : high temperature for da

y,

x^2 : (high temperature for day)2

 

/**

*x的多次方里面的高阶需求,使得我们可以通过高阶的需求来实现非线性的linear *regression

*辅助理解视图如下:

**/

image.png

 

//在之前的数据上加入二次方之后,图形也就成了下面的形状,由图可知,它非常好的拟合了数据的趋势。

 image.png

 

//如果继续加大它的特征(从二次方加到十次方或者更大),则会出现过拟合的状况。如图所示:

image.png

 

三.模型选择

 image.png

 

//通过观察图形,可以发现Training的值在不断下降,而Test的值在到达某个临界值后便开始反弹。

Overfitting模型的判定有很多种方式,运用的比较广泛的是通过TrainingTest的值来进行判断其模型是否是Overfitting模型。由改图可知,模型的设计并不是越复杂越好,而是适用场景就足够了。

 

 

Regularization

  • We can directly prevent large elntries in 0 by penalizing

the magnitude of its entries

  • Leads to regularized loss minimization problem

image.png

 

//图中的公式为参考公式,平方与i的值都是可变的;不同的值可以视为不同的正则化方式。通过这种方式可以不断的进行过拟合来获得一个好的模型选择。

 

 

//解决模型选择的问题可以使用七三分算法,将数据七三分,七的那一部分作为Training,三的那一部分作为Test。再者就是将数据分为两级。对于虚拟数据我们也可以使用七三分算法来验证。比如正择化的运用。

Evaluating ML algjorithms

  • Break all data into training/testi

ing sets (e.g., 70%/30%)

  • Break training set into training/vi

ralidation set (e.g.,

70%/30% again)

  • Choose hyper-parameters using
  • validation set
  • Evaluate performance on the testing set

 

//常见的衡量算法的方式

Evaluating ML algorithms(Cont.)

  • 衡量算法performance,主要metric :
  • Learning(Loss) curves , Accurac:y (percent correct over

all test instances)Precision/Recall ,AUC(Area under .ROC curve)

  • Accuracy , Computational Resources , Stability ,

评价的指标非常多

//对比区别

image.png

 

练习:

Which of the following can resultin unsatisfactory test

performance in machine learning?

//下面哪种情况会导致一个不合格的performance

A.data snooping

B.sampling bias

C.overfitting

  D.All of the above

 

//答案选  ABC    

相关文章
|
2月前
|
机器学习/深度学习 算法
大模型开发:什么是过拟合和欠拟合?你如何防止它们?
机器学习中,过拟合和欠拟合影响模型泛化能力。过拟合是模型对训练数据过度学习,测试集表现差,可通过正则化、降低模型复杂度或增加训练数据来缓解。欠拟合则是模型未能捕捉数据趋势,解决方案包括增加模型复杂度、添加特征或调整参数。平衡两者需通过实验、交叉验证和超参数调优。
140 0
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
训练误差与泛化误差的说明
训练误差与泛化误差的说明
40 0
|
10月前
|
机器学习/深度学习 算法
机器学习算法之欠拟合和过拟合
机器学习算法之欠拟合和过拟合
|
18天前
|
机器学习/深度学习 算法 Python
线性回归训练和预测代码详解
线性回归作为一种基础的回归分析方法,其核心思想和实现相对简单。本文通过详细的代码示例,介绍了线性回归模型的训练过程和预测函数的实现。希望能够帮助读者更好地理解和掌握这一基础算法。在实际应用中,线性回归可以作为一种初步的分析工具,为更复杂的模型提供参考和基础。
17 2
|
2月前
|
机器学习/深度学习
通过学习曲线识别过拟合和欠拟合
本文介绍了如何利用学习曲线识别机器学习模型中的过拟合和欠拟合问题。过拟合发生时,模型过于复杂,对训练数据过拟合,导致测试集表现不佳;欠拟合则是因为模型太简单,无法捕获数据模式,训练和测试集得分均低。学习曲线通过绘制训练和验证损失随训练样本增加的情况来辅助判断。对于过拟合,学习曲线显示训练损失低且随样本增加上升,验证损失降低但不趋近训练损失;欠拟合时,训练和验证损失都高,且两者随着样本增加缓慢改善。通过学习曲线,我们可以调整模型复杂度或采用正则化等方法优化模型泛化能力。
46 0
|
10月前
|
机器学习/深度学习 算法
机器学习欠拟合和过拟合
机器学习欠拟合和过拟合
49 0
|
10月前
|
机器学习/深度学习 算法
机器学习算法之线性回归的损失和优化
机器学习算法之线性回归的损失和优化
|
10月前
|
机器学习/深度学习 算法 索引
过拟合和欠拟合:机器学习模型中的两个重要概念
过拟合和欠拟合:机器学习模型中的两个重要概念
|
12月前
特征选择:回归,二分类,多分类特征选择有这么多差异需要注意
特征选择:回归,二分类,多分类特征选择有这么多差异需要注意
116 0
|
机器学习/深度学习 算法
线性回归模型-误差分析
线性回归模型-误差分析
109 0