开发者学堂课程【机器学习算法 :总结与回顾】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7197
总结与回顾
内容介绍
一、 课程纲要
二、 学习目标
三、思考与练习
一、 课程纲要
1. 一元线性回归的参数估计,一元线性回归模型选择之后,方程中会有很多参数包括 . 用已有的样本数据去估算参数。介绍了两个常用方法,一个是 MLE,一个是 LOS
2. 一元线性回归的显著性校验,这个模型估算完参数之后判断是否有意义,就要检查回归是否显著。有三个校验,一个是校验 y 和 x 之间是否存在线性关系,还有一个是做线性回归方程的校验,还有就是 y 和 x 之间的相关系数校验
3. 一元线性回归的残差分析,讲了残差的含义,还有一些差的概念,后续还有一些相关学习
4. 一元线性回归模型的应用,主要有两大类预测,一个是预测,一个是控制。
二、学习目标
1.掌握使用 MLE、OLS 进行参数估计。MLE 是最大次元估计,OLS 是普通最小二乘法。如何使用这两种方式来估算参数?
2.能使用假设检验对回归模型进行检验,作了三个假设检验。一个是 y 和 x 之间是否存在线性关系,用t检验;检验整个回归方程是否显现,用f检验;最后一个是 y和 x 相关系数的检验,用 t 检验。T 的值用查表或是其他方法获得,关键是掌握假设检验的思路
3.理解并能进行回归模型的残差分析,残差满足一些基本的条件均值为0,方差为,这是满足一个正态分布的。如果不满足这几点,可能就会有问题。这期间也讲述了一个四组数据集中只有一个是满足回归模型其他的残差都有问题。另外,残差也有一定的问题。一个是有一定的规律,比如是曲线,残差还有一些重要的因素未被提取,可能是不满足一些情况。还有就是和残差的取值有关,增大还是减小的规律,并且是有非常大的起伏,蛛网现象就是因变量的自相关
4.使用线性回归模型进行预测和控制,预测方式有两种。一个是单机预测,直接带入即可;还有就是区间预测,已知显著水平 a 去估算均值区间,有两种,一个是新值一个是新值的均值,在1-a 的概率下计算区间。另一个是控制,和预测是相反的,想让 y 值预测某一个区间,x 怎么取值
三、思考与练习
1. Galton 身高数据集回归方程,使用 MLE、OLS 手工进行参数估算,体会两者的异同。
2.理解有偏估计和无偏估计,并找实际例子去验证。
3.对第一题中的回归模型进行手工假设检验,包括回归系数和回归方程。
4.对第一题中的回归模型进行残差分析。
5.使用第一题中的模型进行进行预测,比如已知父亲身高,预测孩子身高(预测结果是单一值或一个区间)。使用该模型进行控制,想要一个已知身高的孩子,控制父亲身高。
6.使用其他数据集,重复上述题目,直至理解、掌握。