开发者学堂课程【机器学习算法 :什么是回归分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/535/detail/7184
什么是回归分析
内容介绍
一、变量间关系
二、回归
三、线性和非线性
四、模型的一般形式
五、几个基本假设
一、变量间关系
线性回归是一个比较古老、历史悠久的分析方法,应用范围也比较广泛。
先来看一下如何定义变量之间的关系,回想在初中、高中数学时,变量的关系通常是通过一个函数来定义,如左侧的图片 y=x+0.3。这说明变量 x 和变量 y 之间存在一个严格定义的变量关系,比如说已经知道了x的值,就可以通过函数关系来计算出对应的y值,这个是一个严格的关系。在实际生活中,所看到的变量的关系是不能通过一个严格的函数来定义,但看上去这些数值、变量存在一定的联系,比如右侧的图。可以看到这些点仿佛都在一条直线上,或是在一条直线的两侧,小范围的波动,这个参考线画出来也是 y=x+0.3。可以看到虽然这个点没有准确的在直线上,但它们都在这条直线左右小范围的浮动。找到这个参考线,对后面的预测、评估有非常大的作用。比如当 x=4时,实际值是6,在不知道y的值的情况下,像预测 x 等于4时的 y 的取值,就可以通过这个参考线来计算。而它的实际值和预测值有一个1.7的差异,就叫做误差。右侧的图就是一个非严格的函数关系,但是 x 和 y之间存在一个密切的联系,可以通过这个接近于联系的函数关系来描述y和x之间可能存在的关系,用这个关系来做一些预测。
变量之间 X、Y 之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)。
二、回归
回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。
介绍回归的起源,图上的是高尔顿,是英国的探险家和科学家,在很多领域做过研究、天文地理、气象统计等等。深受达尔文进化论的影响,19世纪80年代高尔顿就开始思考父代和子代的相似性问题。搜集了1074对父母及孩子的身高,将结果描成散点图,一组数据对应一个点,发现趋势近乎一条直线。总的来说是父母平均身高X增加时,其子的身高 Y 也倾向于增加。
他计算了这些父母身高的平均值为68英寸,孩子的平均身高为69英寸,他猜想儿子的身高应该是父母身高+1英寸,结果并非如此,当父母身高低于平均身高时,其孩子的身高要高于猜想的身高,当父母身高高于平均身高时,孩子身高低于猜想的身高。
高尔顿对此研究后得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。如果父母身高(或矮了),其子女比他们更高矮),则人类身材将向高、矮两个极端分化。自然界不这样做,它让身高有一种回归到中心的作用。这个性质被 Galton 成为“回归”。
换一个方式解释,比如考试。平均分是80分,再考一次,原本超过80分的人会有一个平均分移动的局势。比如第一回考了98,下一回就有可能向着80分变化;第一回考20分,下一回更有可能靠近平均分;这个性质叫做回归。再一个例子,射箭,正常水平是8环,第一次射中的10环,那下一箭就会很可能的往8环去移动,结果可能是9环或是6环;反过来这一箭第一次射了5环,那么下一箭高过5环靠近8环的可能性更大;这就是回归。
如果说回归是在两个变量之间的,一个是因变量,一个是自变量。自变量就是x,可以自己变。因变量是因为自变量发生变化而改变。可以根据因变量的多少分为一元回归或是多元回归,另外从线性和非线性的角度可以分为线性回归和非线性回归
三、线性和非线性
(1)线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和其次性,通俗理解就是两个变量之间存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)。
例如:
1.超市买袜子,每双3元,没有折扣,如果把办购物卡的5元也算进来,则消费金额和购买袜子的数量如图所示,为线性关系
2.路边摊买袜子,一双3元,两双5元,三双7元,4双10元…..,此时消费金额和购买袜子的数量如图所示,为非线性关系
(2)线性回归
线性回归(Linear Regression ):在回归分析中,如果自变量和因变量之间存在着线性关系则被称作线性回归。如果只有一个因变量一个自变量,则被称作一元线性回归,如果有一个量多个自变量,则被称作多元回归。
如左侧图片,是房屋面积和价格的关系,只有两个变量,一个是自变量面积,一个是因变量价格。看上去基本上是满足一个线性回归。
而右侧的是房龄、面积和价格之间的关系,价格是因变量,另外两个是自变量,这个图化成了一个曲面,这种就是多元回归。
四、模型的一般形式
回归模型的一般形式:
F就是代表确定性关系,代表是随机误差(扰动项)。产生随机误差的几个因素是:影响因素确实,就是函数表达式中缺少一项;观测、测量误差,是在读数时造成的误差;还有其他的随机误差。如果是影响因素确实,可以加入一些因素使得误差变小,但是其他误差是不太容易去掉。
当为线性函数,即:
被称为回归系数
看图中的折线图,y=x+0.3+ε
对于一个点来说,ε前面的部分就称为确定性的关系,后面加上的是随机性的误差,等于1,这些称之为回归系数。X 表示自变量,y 表示因变量,最后再加上随机误差。在预测的过程中,后面的随机误差是会忽略掉的,因为不知道ε的值是多少,预测过程中是不知道的。比如现在要预测 x=12 时对应的有 y 值多少,直接带入式子 y=x+0.3 中预测 y 的值,它有很大的几率是不等于12.3,它有随机误差,但无法预测到误差值。所以在真正的使用回归模型预测时候,后面的ε不会加上,只要前面的确定性关系,无法确定ε就选择忽略掉。但在建模、评估模型的时候需要去考虑随机误差的存在,毕竟是一项、有一定的取值。模型建的好的情况下,ε的值有一定的分布,实际可以运用概率分布的知识做一下研究。
五、几个基本假设
回归模型本身有几个基本的假设,有几个前置假设条件,只有这些条件满足了,这个模型才是一个理想的模型
线性回归有几个基本的前置假设条件:
1.零均值:随机误差项均值为 0,保证未考虑的因素对被解释变量没有系统性的影响。随机误差是0,就是有时为正,有时为负,是分布在直线的两侧。
2.同方差:随机误差项方差相同,在给定x的情况下,ε 的条件方差为某个常数 σ?
3.无自相关:两个 c 之间不相关.就是这两个的相关系数为0.
4.正态分布:ε符合正态分布N(0,σ²)
5.解释变量是非随机变量,其观测值是常数
6.解释变量之间不存在精确的线性关系,就是之间不存在精确的线性关系,否则的话(比如这就是一个精确的线性关系,这时这一项是没有必要存在的,直接把代入方程中即可)
7.样本个数要多于解释变量的个数,这个是一定的,否则没有办法求解写出系数。比如一个方程组有四个未知数,那么这个方程组至少要超过四个方程才可以解出,所以样本个数要多于变量的个数。
注意:回归看上去比较简单,尤其是线性回归,但是很多人在运用中表示效果不好,但实际上很多人是没有检查数据、情景是否满足这些前置条件。若满足,效果还是可以的;若不满足,效果必然不理想。