开发者学堂课程【机器学习算法 :如何建立回归模型-2】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7186
如何建立回归模型-2
内容介绍
一、 模型参数估计
二、 模型检验优化
三、 模型部署应用
四、 回归模型的特点
一、 模型参数估计
模型确定后还要估算参数,就比如是线性模型有两个变量,,此时该模型无用,需要把三个参数都求出来,使用已经整理好的样本数据带入求值。例如二维的参数有三个回归数据求出,三维的有五百多个数据怎么算;注意这不是简单的带入求解,要用到一些惯用的参数方法,像最小二乘法。在前提的条件不满足还会采取岭归、主成分回归、偏最小二乘法等。这些方法在后续的课程中都会讲到。
先看最小二乘法,也叫最小平方法,2乘法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。以下图中的表为例子,有一组数据画入到图中就是一堆点,需要拟合一个回归方程,在图中表示的一条直线。直线可以画无数条,要在这些直线中找到一个最佳。找到最佳,还要度量一些规则。最小二乘法定义了一些是否最佳的办法,就是有一个直线是回归模型,在已知x预测y的时候,值都在直线上,实际上和预测的值有一定的距离,图中用绿的线标出,这个就是误差。预测值和真实值之间的差叫做误差,要求误差的平方和最小,这个模型最佳。这就是最小二乘法。在之前讲模型基础,提到过类似的东西,是相通的,可以用绝对值来度量误差,那种叫损失函数,与这个一样。可以用绝对值,但不容易计算;平方有什么好处:一是非负的,不会因为正负相加抵消;二是处理起来比较方便, 并且在求导的时候会变为一次的,计算起来简单。也就是说把所有的数据全部带进来计算模型的参数,在这个例子中只有两个变量,理论上只用两个点就能算出结果。注意求得不是严格的函数关系,是要通过多个点的数据,用最小二乘法把平方和的误差最小。所以多个点不影响,可能多个点的效果还比较好。这个具体的求法在后面的课程中会讲。通过这个就可以把所要的参数求出来了。
二、 模型检验优化
模型生成。要对其进行检验,判断模型是不是有意义的,
参数确定后,得到模型。此时方程的本身没有意义需要对模型进行统计意义上的检验。包括对回归方程的显著性检验(看方程有没有意义,若定义的方程本身是由随机因素造成的,那么整个工作是没有意义的)、回归系数的显著性检验(比如要看对 x 参数有没有意义,是没有实际的影响还是影响是随机的原因、误差造成的,采样时随机因素导致的,如果时不显著的,就要把整个项不要,回归方程就会变为,还要再重新建模,建模时变量变为两个。)、拟合优度检验(系数方程都是显著的、是有意义的,回归效果好,回归方程能监督大部分的点,是否满足选择值最小的原则)、异方差检验(数据本身有没有问题,随机误差本身有没有规律。有规律就比较麻烦,需要把规律提取出来,放到前面的;没有规律是比较希望的情况,同方差、正态分布、不相关就等于把数据中有用的部分能吸收掉)、多重共线性检验(模型中比如中 x1 和 x2 有明确的函数关系,或是相似度很高,x1=2x2,此时 x2 就没有存在意义。直接把 x2 加入到上面即可,如果不这么处理就会出现多重共线性,这对模型的影响非常大。后面讲不满足基本假设的时候也会重点讲这个内容)等。还需要结合实际场景,判断该模型是否具有实际意义。就是来看模型对工作是否有一定程度的帮助。
三、 模型部署应用
模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。
变量关系:确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式
因素分析:回归模型对解释变量和被解释变量之间的关系进行了度量,从各个解释变量的系数可以发现各因素对最终结果的影响大小。不考虑单位,比如y=10000*x1+0.01*x2,如果是单位不一样 x2 单位是亿元,x1 的单位是元.忽略单位的情况下,假设是可比的没影响、系数越大结果越大,就是说可以对其进行量化。
控制:给定被解释变量的值。根据模型来控制解释变量的值
预测:根据回归模型,可以基于已知的一个或多个变量预测另一个变量的取值,并可以了解这个取值精确到什么程度。这个要注意,预测要考虑误差的分析。回归模型中有两个部分,有一个是误差。
四、 回归模型的特点
这个算法还是比较久远的,运用的好的前提是满足基本假设。许多人是因为没有用对认为回归模型不好用,在很多地方是可以运用到的。从来都不是越高大尚越好,越简单越好,这些的前提条件是解释性好,不会欠拟合。同等条件下,越简单的模型稳定性越好,效果越好。
回归模型在很多领域都有广泛的应用,具有以下优点:
模型简单,建模和应用都比较容易
有坚实的统计理论支撑,有非常好数学的基础,从数学可以通过严格的证明得到结论
定量分析各变量之间的关系,自变量对因变量的关系影响都是可以量化的
模型预测结果可以通过误差分析精确了解。若模型建的很好,就是可以对误差值进行精确的分析,误差项满足平均值、同方差求出来是一个常数。不相关、正态分布,是对每一个预测值考虑上误差因素可以把这个值精确的控制在一个比较小的范围内。
存在一些缺点:
假设条件比较多且相对严格,在用的时候有非常严格的前置条件,否则在后面会用很多的步骤来减少这个影响
变量选择对模型影响较大。建模选择的因变量是简单的,自变量选择。一个结果通常是由于多个因素造成的,如何把这个影响挑出来,还有一些错位,从业务理解上,好像结果与其相关,但在最后的结果上,这个因素的影响不显著。所以对回归模型来说变量选择也是一个比较困难的事。这些影响都有一定的技术手段来缓解问题。