非线性回归 过度拟合 模型选择
目录:
一、非线性回归
二、过拟合
三、模型选择
一,非线性回归
/**
*将抛物线的数据进行简单的修改变得到了下方的这张图,通过观察可以发现,;图中的图形*形状是抛物线的形状,理论上与二次拟合的效果视为最佳,这种就被称之为二次非线性关*系图。
**/
二,过拟合
Non-linear regression(Cont.)
l The input features can themselves include non-linearfeatures of data: f(x,0)=0o+01
1X.+x^2+…+0gxD=
l 2-0xj
l E.g., x : high temperature for da
y,
x^2 : (high temperature for day)2
/**
*x的多次方里面的高阶需求,使得我们可以通过高阶的需求来实现非线性的linear *regression。
*辅助理解视图如下:
**/
//在之前的数据上加入二次方之后,图形也就成了下面的形状,由图可知,它非常好的拟合了数据的趋势。
//如果继续加大它的特征(从二次方加到十次方或者更大),则会出现过拟合的状况。如图所示:
三.模型选择
//通过观察图形,可以发现Training的值在不断下降,而Test的值在到达某个临界值后便开始反弹。
Overfitting模型的判定有很多种方式,运用的比较广泛的是通过Training和Test的值来进行判断其模型是否是Overfitting模型。由改图可知,模型的设计并不是越复杂越好,而是适用场景就足够了。
Regularization
- We can directly prevent large elntries in 0 by penalizing
the magnitude of its entries
- Leads to regularized loss minimization problem
//图中的公式为参考公式,平方与i的值都是可变的;不同的值可以视为不同的正则化方式。通过这种方式可以不断的进行过拟合来获得一个好的模型选择。
//解决模型选择的问题可以使用七三分算法,将数据七三分,七的那一部分作为Training,三的那一部分作为Test。再者就是将数据分为两级。对于虚拟数据我们也可以使用七三分算法来验证。比如正择化的运用。
Evaluating ML algjorithms
- Break all data into training/testi
ing sets (e.g., 70%/30%)
- Break training set into training/vi
ralidation set (e.g.,
70%/30% again)
- Choose hyper-parameters using
- validation set
- Evaluate performance on the testing set
//常见的衡量算法的方式
Evaluating ML algorithms(Cont.)
- 衡量算法performance,主要metric :
- Learning(Loss) curves , Accurac:y (percent correct over
all test instances),Precision/Recall ,AUC(Area under .ROC curve)
- Accuracy , Computational Resources , Stability ,
评价的指标非常多
//对比区别
练习:
Which of the following can resultin unsatisfactory test
performance in machine learning?
//下面哪种情况会导致一个不合格的performance
A.data snooping
B.sampling bias
C.overfitting
D.All of the above
//答案选 ABC