回归分析概述
相关分析与回归分析
- 相关分析只表明变量间相关关系的性质和程度,回归分析是要确定变量间相关的具体数学形式
- 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量之间的关系
回归分析的一般步骤
- 1 确定回归分析中的解释变量和被解释变量
- 2 确定回归模型
- 3 建立回归方程
- 4 对回归方程进行各种检验
- 5 利用回归方程进行预测
线性回归
线性回归介绍
线性回归(linear regression)是分析变量间数量依存关系的统计分析方法。如果某一个变量随着另一个变量的变化而变化,并且它们的变化关系呈直线趋势,就可以用直线回归方程来定量地描述它们之间的数量依存关系,这就是线性回归分析。
一元线性回归的数学模型为:
上式表明,被解释变量y的变化可由两个部分解释:
第一,由解释变量x的变化引起的y的线性变化部分,即y=β0+β1x;
第二,由其他随机因素引起的y的变化部分,即ε。
【案例】:碘含量与患病率的分析
操作步骤:
①导入数据
②【分析】-->【回归】-->【线性】
③选择自变量和应变量,点击统计
④ 勾选如下图选项,点击继续,点击图
⑤ 勾选直方图和概率图
⑥选项按钮中直接使用默认参数即可。
⑦点击“确定”按钮,查看统计结果:
从描述统计中可以看到患病率和碘含量的平均值、标准偏差和个案数。
从相关性中可以看到,患病率和碘含量相关系数0.971,显著性为0。说明碘含量和患病率显著相关。
由表可见,只有一个自变量,变量选择的方法为强行输入法,也就是将所有的自变量都放入模型中。
上表可看到,是对回归方程拟合情况的描述,可知相关系数的取值(R),相关系数的平方即决定系数,决定系数值为0.943, 初步判断模型拟合效果良好。
对回归方程的显著性检验,一元线性回归方程的显著性检验 的原假设H0是β1=0,即回归系数与零无显著性差异。F=115.136,P=0.000,概率P值小于α,应该拒绝原假设,认为 回归系数与零存在显著差异,被解释变量(患病率)与解释变量(碘含量)的线性关系显著,可以用线性模型描述和反映它们之间的关系。
在一元线性回归分析中,回归方程的显著性检验和回归系数的显著性检验的作用是相同的,同时,回归方程的显著性检验中的F统计量等于回归系数的显著性检验中的t统计量的平方,即F=t2。
上面已经得出回归公式,接下来我们需要检验数据是否可以做回归分析,它对数据的要求是苛刻的,有必要就残差进行分析,下面是残差的正态性图形结果。
从标准化残差直方图来看,左右两侧不完全对称;从标准化残差的P-P图来看,散点并没有全部靠近斜线,并不完美。 综合而言,残差正态性结果不是最好的,当然在现实分析当中, 理想状态的正态并不多见,接近或近似即可考虑接受。
曲线估计
曲线估计介绍
变量间相关关系的分析中,变量之间的关系并不总表现为线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。
变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。
- 本质线性关系:变量关系形式上虽然呈非线性关系(如二次曲线),但可通过变量变换转化为线性关系,最终可进行线性回归分析,建立线性模型
- 本质非线性关系:变量关系不仅形式上呈非线性关系,而且无法通过变量变换转化为线性关系,最终无法进行线性回归分析和建立线性模型
注意: 曲线估计是解决本质线性关系问题的!
【案例】——年人均可支配收入与教育支出的关系分析
操作步骤:
①导入数据
②【分析】-->【回归】-->【曲线估计】
③选择因变量、个案标签等
④点击“确定”按钮,结果如下:
在模型描述中可以看到,因变量:教育支出,自变量为:年人均可支配收入。方程有4个,一个线性方程,一个二次方程,一个 三次方程,一个复合方程。包括常量。
从“个案处理摘要”可以看出,排除的个案为12,说明变量中所有 的个案带有“缺失值”,个案总数为28个。
从变量处理摘要中可以看到,教育支出16个,有12个缺失值。 年人均可支配收入28个,没有缺失值。
一元线性回归方程,拟合优度判定系数为0.901,显著性小于0.05。
二次曲线回归方程,拟合优度判定系数为0.983。回归方程和各回归系数显著性大于0.05,表明模型不显著,二次曲线模型不合理。
三次曲线回归方程,拟合优度判定系数为0.987(高于一元线性回归方程拟合度)。回归方程和各回归系数显著性小于0.05,表明三次曲线模型更为合理。
【SPSS】回归分析详细操作教程(附案例实战)(下):https://developer.aliyun.com/article/1434876