回归模型的参数估计-1| 学习笔记

简介: 快速学习回归模型的参数估计-1。

开发者学堂课程【机器学习算法 :回归模型的参数估计-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7189


回归模型的参数估计-1

 

内容简介

一、一元线性回归模型

二、参数估计:最小二乘估计

 

一、 一元线性回归模型

在前面的课程学习过线性回归、一元线性回归的基础知识。本节课学习如何去进行参数估计,先回忆一下一元线性估计,在研究一个现象的时候,或者在研究某一个问题的时候。发现有一些现象或是问题有一些直接的因素对其的影响较大,直接的因素和现象本身有一定的关系,但这俩个不是严格的函数关系,这时会使用一元线性回归模型。

image.png

这个线性回归方程的公式是image.png。y是因变量被解释的变量也就是这个现象通过变量要体现出来,或者是所解决的问题可以通过这个变量来展示;x是自变量就是解释变量,是影响现象的相关因素;image.png是一个回归常数;image.png是一个回归系数,通常把image.png叫做回归参数;就是随机误差,不是系统偏差,它的方程等与于一个常数是image.png,随机方差一旦满足均值为0,方程为常数,那它就会在0上下小范围浮动,方差表示浮动的范围,这个方差是说不是常数就行,而是在一个可浮动的范围内在可以。

一元线性回归方程:image.png。这个方程就是计算理论回归模型的期望值,说过随机误差是不可能去度量的或是说不可能很好的去每一个记录预测的时候来度量随机误差。所以就认为理论回归方程的期望值就是想要的结果,这个期望就是image.png,因为均值为0没有

重点:回归方程从平均意义上表达了变量y与 x的统计规律性。比如说用尺子来量一个纸带,纸带长度没有发生变化,那可能每一次量时度的数据都会有差距。而纸带的实际长度实际上如果测量误差是随机误差的话,把多次测量的结果取平均值,这个平均值就可以很好的表达纸带的长度,就是常说的平均意义上表达的统计的规律性。

回归分析的主要任务就是通过n组样本的观察值,对image.png进行估计,得到最终方程。这个方程是image.png,是什么也干不了的,image.png是未知的,x、y是已知的。比如在训练的时候,y、x都是已经知道的,在之前的测量身高的例子就是在已知父母身高下预测孩子的身高,父母的身高是x,孩子的身高是y。如何通过已知的样本去求出image.png的未知数,方程在应用的时候只知道父母的身高,用方程来预测孩子的身高,x已知、y未知。所以求image.png需要讲解一个重要的方法。

 

二、参数估计:最小二乘估计

通常把一个已知的数据、信息去估算未知参数的工作,接下来会讲解一个估计,这也是回归方程中最常使用的一个估计方法,叫做最小二乘估计,之前简单介绍过。

最小二乘估计(Least Square  Estimation ,OLE) 这个内容简写应该是LSE,但写作OLE,是因为一般说的最小二乘估计是普通最小二乘估计,是最常见的所以为OLE。

根据观察数据,寻找参数image.png的估计值image.pngimage.png上面有一个帽子后读作image.pngheight)就是观测数据使观测值和回归预测值的离差平方和达到极小。估计值image.png称作回归参数image.png的最小二乘估计。

回到这个例子,横轴为x,纵轴为y,可以看到实际的点在图中描述出来是在直线的上下两侧小范围波动,离差平方和:image.png

这个地方要注意,比如在写一个函数的时候f(x)说明x是这个里面的一个变量,这里写成的是image.png,说明这image.png是它的变量,就是这个方程是关于image.png的,现在要根据已知的数据样本来估算参数,样本已知有说明了x、y是已知的,所以就是常数了。就有很多人习惯认为x、y是变量,但在这就是一个常数。这个公式就是image.png的期望,image.png实际上就是回归方程,理论回归方程中有一个是一个随机误差,是无法处理的。就用平均意义上来表达变量之间的关系,所以求了一个期望,把image.png整体带入后变成了image.png,可以从图中看出实际值与预测值还有一定的距离。这就要求估计值image.png满足:image.png

注意在这个公式中用预测值代替实际值,实际值永远不知道,除非将所有人的身高测量一遍,否则是不知道全局意义上的image.png到底是多少。

在这里是采取一般的数值去估算image.png,用这个来代替image.png,在当前已知的所有信息情况下,所能求到的最佳的、和image.png最接近的就是image.png,带入之后就等于image.png。此时要求一个image.png使得后面一个式子的值最小,需要了解一些数学的一些基本符号,懂符号后记录比较方便,写了方便对后续交流、查询都方便。那么这个估计值image.png是非负二次函数,有最小值,其最小值的求法为求其偏导数,令其分别等于零,求解方程组即可。

image.png

相关文章
|
6月前
|
数据可视化 数据挖掘 计算机视觉
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资
|
6月前
|
算法
t-GARCH 模型的贝叶斯推断理论
t-GARCH 模型的贝叶斯推断理论
|
6月前
|
机器学习/深度学习 并行计算 算法
【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例(一)
【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例(一)
|
6月前
|
机器学习/深度学习 存储 算法
【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例(二)
【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例二)
|
6月前
|
数据可视化 数据建模 大数据
MCMC的rstan贝叶斯回归模型和标准线性回归模型比较
MCMC的rstan贝叶斯回归模型和标准线性回归模型比较
|
6月前
R语言stan进行基于贝叶斯推断的回归模型
R语言stan进行基于贝叶斯推断的回归模型
|
6月前
|
机器学习/深度学习 算法 数据可视化
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
R语言逻辑回归和泊松回归模型对发生交通事故概率建模
|
机器学习/深度学习 数据可视化 算法
机器学习系列6 使用Scikit-learn构建回归模型:简单线性回归、多项式回归与多元线性回归
在本文中,我们以美国南瓜数据为例,讲解了三种线性回归的原理与使用方法,探寻数据之间的相关性,并构建了6种线性回归模型。将准确率从一开始的0.04提升到0.96.
334 0
|
机器学习/深度学习 算法
线性回归模型-误差分析
线性回归模型-误差分析
160 0
|
机器学习/深度学习 数据可视化 Python
多元线性回归的模型解释、假设检验、特征选择(一)
多元线性回归的模型解释、假设检验、特征选择(一)
254 0
多元线性回归的模型解释、假设检验、特征选择(一)
下一篇
无影云桌面