开发者学堂课程【机器学习入门-概念原理及常用算法:非线性回归 过度拟合 模型选择】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/355/detail/4184
非线性回归 过度拟合 模型选择
目录:
一、非线性回归
二 、过拟合
三 、模型选择
一、非线性回归
/**
*将抛物线的数据进行简单的修改变得到了下方的这张图,通过观察可以发现,;图中的图形*形状是抛物线的形状,理论上与二次拟合的效果视为最佳,这种就被称之为二次非线性关*系图。
**/
二、过拟合
Non-linear regression(Cont.)
l
The input features can themselves include non-linearfeatures of data: f(x,0)=0o+01
1X.+x^2+…+0gxD=
l
2-0xj
l
E.g., x : high temperature for da
y,
x^2 : (high temperature for day)2
/
**
*x的多次方里面的高阶需求,使得我们可以通过高阶的需求来实现非线性的linear *
regression
。
*辅助理解视图如下:
**/
//在之前的数据上加入二次方之后,图形也就成了下面的形状,由图可知,它非常好的拟合了数据的趋势。
//如果继续加大它的特征(从二次方加到十次方或者更大),则会出现过拟合的状况。如图所示:
三、模型选择
//通过观察图形,可以发现 Training 的值在不断下降,而 Test 的值在到达某个临界值后便开始反弹。
Overfitting 模型的判定有很多种方式,运用的比较广泛的是通过 Training 和 Test 的值来进行判断其模型是否是 Overfitting 模型。由改图可知,模型的设计并不是越复杂越好,而是适用场景就足够了。
Regularization
l We can directly prevent large elntries in 0 by penalizingthe magnitude of its entries
l
Leads to regularized loss minimization problem
//图中的公式为参考公式,平方与i的值都是可变的;不同的值可以视为不同的正则化方式。通过这种方式可以不断的进行过拟合来获得一个好的模型选择。
//解决模型选择的问题可以使用七三分算法,将数据七三分,七的那一部分作为Training,三的那一部分作为 Test 。再者就是将数据分为两级。对于虚拟数据我们也可以使用七三分算法来验证。比如正择化的运用.
Evaluating ML algjorithms
l Break all data into training/testiing sets (e.g., 70%/30%)
l Break training set into training/viralidation set (e.g.,70%/30% again)
l
Choose hyper-parameters using
l
validation set
l
Evaluate performance on the testing set
//常见的衡量算法的方式
Evaluating ML algorithms(Cont.)
l 衡量算法performance ,主要metric :
l Learning(Loss) curves , Accurac:y (percent correct overall test instances),Precision/Recall ,AUC(Area under .ROC curve)
l
Accuracy , Computational Resources , Stability ,
评价的指标非常多
//对比区别
练习:
Which of the following can resultin unsatisfactory test performance in machine learning?
//下面哪种情况会导致一个不合格的performance
A.data snooping
B.sampling bias
C.overfitting
D.All of the above
//答案选ABC