开发者学堂课程【人工智能必备基础:概率论与数理统计:回归分析概述】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/545/detail/7428
回归分析概述
内容介绍:
一、 回归分析
二、 回归的一般步骤
一、回归分析
相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法
回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法
在对回归分析进行分类时,主要有两种分类方式:
●根据变量的数目,可以分类一元回归、多元回归(一元回归:比如有个 Y,X。X 会对 Y 产生一个影响,Y 只由 X 一个因素影响而改变的。多元回归:比如有 Y、X0、X1、X2,变量很多,但因变量只有一个 Y。)
●根据自变量与因变量的表现形式,分为线性与非线性(基本线性表达:y=kx+b。还有 y=kx^2+b,以及二阶的,三阶的,四阶的……)
所以,回归分析包括四个方向:一元线性回归分析、 多元线性回归分析、一元非线性回归分析、多元非线性回归分析。
解读上图:球里有些数据点(红色方块),现要围绕已知的数据点建立出一个回归方程,这个回归方程能把这些数据点综合进去,这就是回归分析里的主要的事。假如把回归方程(紫色线)构建出来,有些点在紫色线的上面,有些在紫色线的下面,这就是离散情况,既分布在回归方程两端。在回归方程上的点叫做估计值或预测值,基于方程的点,在方程上的点是预测值。比如想要知道一个指标,现横坐标和纵坐标分别表示体重和身高,现当体重等于 68,这类人身高大约为多少。按照方程,现将方程求出,在把 x=68 代入就能求出 y 等于多少,对于方程就是求出的预测点,下面的红色方块就是观测值,观测值和估计值之间有差异的,这个差异值叫做残差或误差项。weight=-134+4.09height 就是构造出来的紫色回归方程,紫色回归方程就能预测出更多的值,就好比做一件事,基于历史数据当中,找到变量之间的关系,因变量与自变量之间的关系,由这关系大致能把方程构建出来。对于方程来说,不可能都过每一个点,都会有偏差。假如当有一个数据,只知道体重,就用回归方程预测出大致的身高,或者体重。这就是回归方程能帮助做的事。
二、回归分析的一般步骤
1、 确定回归方程中的解释变量和被解释变量
2、 确定回归模型建立回归方程
3、 对回归方程进行各种检验
4、 利用回归方程进行预测