一、回归分析
在生活中存在很多相互制约又相互依赖的关系,这些关系主要有确定关系和非确定关系
确定关系指变量之间存在明确的函数关系,如圆的周长与半径之间的关系
非确定关系指各变量之间虽然有制约依赖关系,但无法用确定的函数表达式来表示,如人的血压与体重之间存在密切关系,但无法找到一个能准确表达其关系的函数,变量之间存在的这种非确定性关系,称为相对关系
事实上,有一些确定关系,由于测量误差的影响,也经常表现出某种程度的不确定性
对于不确定的关系,通过大量观测数值,可以发现其中变量间存在的统计规律。通过回归分析,可以表明自变量和因变量之间的显著关系或者表明多个自变量对一个因变量的影响强度
回归问题在形式上与分类问题十分相似,但是在分类问题中预测值y是一个离散变量,它代表通过特征x所预测出来的类别;而在回归问题中,y是一个连续变量
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系
具体来说,回归分析法指利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后因变量变化的分析。回归分析通常用于预测分析,时间序列模型以及发现变量之间的因果关系
设样本集S={s_1,s_2,…,s_m}包含m个样本,样本s_i=(x_i,y_i)包括一个实例x_i和一个实数标签值y_i,实例由n维特征向量表示,即x_i=(x_i^(1),x_i^(2),…,x_i^(n))
在学习过程,基于损失函数最小的思想,学习得到一个模型,该模型是从实例特征向量到实数的映射,用决策函数Y=f(X)来表示,X是定义域,它是所有实例特征向量的集合,Y是值域R
在预测过程,利用学习到的模型来得到未标记样本x的预测值y ̂。回归也称为拟合
有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)
根据因变量和自变量的个数分为一元回归分析、多元回归分析、逻辑回归分析和其他回归分析;根据因变量和自变量的函数表达式分为线性回归分析和非线性回归分析。线性回归是回归分析中最基本的方法。对于非线性回归,可以借助数学手段将其转化为线性回归,一旦线性回归问题得到解决,非线性回归问题也就迎刃而解
常用的回归分析技术有线性回归、逻辑回归、多项式回归和岭回归等
二、回归分析的过程
回归分析可以简单理解为数据分析与预测,通过对数据进行分析实现预测,也就是适当扩大已有自变量的取值范围,并承认该回归方程在扩大的定义域内成立。一般来说,回归分析的主要过程和步骤如下
(1)收集一组包含因变量和自变量的数据
(2)根据因变量和自变量之间的关系,初步设定回归模型
(3)求解合理的回归系数
(4)进行相关性检验,确定相关系数
(5)利用模型对因变量作出预测或解释,并计算预测值的置信区间