@TOC
1 、回归分析介绍
1.1 回归分析是研究变量间函数关系的一种方法。
变量之间的关系可以表示为方程的形式
• 因变量
• 自变量
• 回归模型的作用
• 预测
• 解释
1.2回归模型
• Y 因变量
• X1,X2,⋯,Xp 自变量
• p 自变量的个数
• 回归模型近似刻画 Y 和 X1,X2, ⋯,Xp 之间的真实关系
1.3 线性回归模型
回归参数值可通过数据集进行估算
1.4模型变换
• 可线性化的函数
• 令 X1 = 𝑋,𝑋2 = 𝑋2
• 可线性化的函数
• 令 X1 = ln𝑋
1.5模型设定
• 一元回归模型
一个因变量
一个自变量
• 多元回归模型
一个因变量
多个自变量
2 拟合方法
• 使用数据估计模型参数时所使用的方法
• 最大似然估计法
• 常用方法,但有争议
• 最小二乘法
• 常用方法 数据需满足一定假设条件
模型拟合
3 一元线性回归模型
• 线性模型
• 𝛽0 截距
• 𝛽1 斜率
• 𝜖 随机误差
• 对 Y 和 X 之间真实关系的近似
随机误差是模型无法解释的部分,即随机误差和越小,模型越好
3.1 最小二乘法
• 思想
• 总的误差平方和达到最小
• 误差的表达式
• 总的误差平方和
对表达式求导,导数为0时,有最小值
• 最小化 S 𝛽0 , 𝛽1 ,得到 𝛽0、𝛽1 的估值 መ𝛽0、 መ𝛽1:
• መ𝛽0、 መ𝛽1 称为 𝛽0、𝛽1 的最小二乘估计
3.2 最小二乘回归直线
• 最小二乘直线一定存在
• 可能不唯一
4 模型条件
• 前提
• 线性假定
• 判断 Y 和 X 之间是否存在线性相关性
• 散点图
• 更严格的数量化方法
• 对回归参数 𝛽1 作假设检验
高斯马尔科夫假定:
- 线性于参数
- 随机抽样
- 不存在完全共线性
- 误差的条件均值为零
- 误差的同方差性
- 误差的正态性
5 假设检验
5.1 模型
• 零假设 H0:𝛽1 = 0 • Y 和 X 之间没有线性关系
• 备择假设 H1:𝛽1 ≠ 0 • Y 和 X 之间存在线性关系
做检验的原因是x与y线性无关,模型只是偶然得到的,并无解释能力
5.2 前提
• 对于 X 的每一个值,所有的 𝜀 d都相互独立,并且服
从均值为 0、方差为 𝜎2 的正态分布。
• 𝜀i ~ 𝑖𝑖𝑑𝑁 0, 𝜎2 ,𝜎2 > 0 。
在 𝜀i ~ 𝑖𝑖𝑑𝑁 0, 𝜎2 前提下
• መ𝛽0、 መ𝛽1 是 𝛽0 和 𝛽1 的无偏估计
• 𝜎2 的无偏估计
• SSR 残差(误差)平方和
• n-2 自由度
• 自由度 = 样本中的观测个数 - 待估计的回归参数的个数
• 标准误
• 标准差的估计量
• s.e(𝛽1 ^)描述斜率的估计精度
• 标准误越小估计精度越高
5.3 t 检验
• 在正态分布假设下
• 零假设 H0:𝛽1 = 0 • 备择假设 H1:𝛽1 ≠ 0 • 检验方法 t 检验
• 当H0为真时,t1 服从自由度为 n-2 的学生氏 t分布。
• t 检验
• 𝛼 显著性水平
• 双边检验
• 在显著性水平 𝛼 下拒绝 H0
• 在显著性水平 𝛼 下拒绝 H0 • 等价的检验准则
• 在显著性水平 𝛼 下拒绝 H0 • 𝑝 𝑡1 服从自由度为n-2的学生氏t分布的随机变量的
绝对值大于 t1 的概率
• 零假设 H0:𝛽1 = 0 • 备择假设 H1:𝛽1 ≠ 0 • 拒绝零假设 H0 • 𝛽1 很有可能不是零
• 自变量 X 对因变量 Y 的预测效果在统计上是显著的
5.4检验公式
• 零假设 H0:𝛽1 = 𝑎 • 备择假设 H1:𝛽1 ≠ 𝑎 • t 检验
• t1 服从自由度为 n-2 的 t分布
6 预测
• 两种类型的预测
• 对于任意给定的 x0,计算因变量 Y 的预测值。
• 当 X = x0 ,估计因变量的预测均值 𝜇0 。
6.1 预测y
6.2 预测 𝜇0
6.3 预测区间
• 因变量 Y 的区间预测
• 自变量 𝜇0均值的区间预测
7 评估
• 评估的标准
- t 检验
- (X,Y)散点图和相关系数
- (Y,Y^)散点图和相关系数
- 误差估计
8 模型误差
即 SST = SSE + SSR
• SST = SSE + SSR
• SSE 衡量 X 对 Y 的预测能力
• SSR 衡量预测误差
9 决定系数
• 决定系数 R2 • 在 Y 的总变差中能被自变量 X 所解释的部分(所占的
比例)
• 反映了自变量对因变量的解释能力
• R2 ∈【 0,1】
决定系数R^2约大越好,但不能只凭 R ^2说明模型好坏
因为R^2 代表模型的解释度,在测试集情况下吧所有因变量加进去 R^2 就变成1了,此时模型无效
线性回归模型可以理解为
以最小化R方为目标,寻找y和x之间的最佳线性关系