预测分析：R语言实现2.5　线性回归的问题-阿里云开发者社区

预测分析：R语言实现2.5　线性回归的问题

2017-05-02 2595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

2.5　线性回归的问题

在本章，我们已经看到了在尝试构建线性回归模型的时候遇到某些问题的一些示例。我们讨论过的一大类问题是和模型在线性、特征独立性和同方差性及误差的正态性等方面的假设相关的。我们还具体看到了诊断这类问题的方法，要么借助像残差图这样的图，或者利用能识别非独立成分的函数。本节要探讨线性回归中可能出现的一些其他问题。

2.5.1　多重共线性

作为预处理步骤的一部分，我们会尽力去除相互线性相关的特征。在此过程中，我们寻找的是一种完全的线性关系，这就是完全共线性（perfect collinearity）的示例。共线性（collinearity）是描述两个特征近似具有一种线性关系的性质。这对于线性回归会产生一个问题，因为我们会尝试给相互之间接近是线性函数的变量分配独立的系数。这样会导致的情况是：两个高度共线性的特征具有较大的p值表明它们和输出变量不相关，但如果去除其中一个特征并重新训练该模型，剩下的那个特征就会具有较小的p值。共线性的另一种典型迹象是某个系数出现不正常的符号，例如在一个预测收入水平的线性模型里，教育背景的系数为负。两个特征之间的共线性可以通过配对相关系数进行检测。处理共线性的一种方式是把两个特征合并为一个（例如通过取平均值）；另一种方式是直接去除其中一个特征。

多重共线性（multicollinearity）出现在线性关系涉及多于两个特征的情况。检测它的一种标准方法是对线性模型中的每个输入特征计算其方差膨胀因子（variance inflation factor，VIF）。简而言之，VIF可以用来估计由于该特征和其他特征共线性而直接导致在具体系数的估计过程中能观察到的方差的增量。这通常是通过拟合一个线性回归模型来进行的，我们把其中的一个特征作为输出特征，把其他特征仍保留为常规的输入特征。然后我们对这个线性模型计算R2统计量，并据此利用公式1 / (1－R2)计算我们选取的那个特征的VIF。在R语言中，car包包含了vif()函数，它能方便地对一个线性回归模型中的所有特征计算VIF值。这里有一个经验规则是，VIF分数为4或更大的特征就是可疑的，而分数大于10就表明了多重共线性的极大可能性。既然看到了二手车数据中存在必须去除的线性依赖特征，就让我们来调查在余下的特征中是否存在多重共线性：

这里有3个值略大于4，但没有更大的了。作为一个示例，如下的代码演示了sedan特征的VIF值是如何计算的：

2.5.2　离群值

当观察我们的两个模型的残差时，我们会看到有某些观测数据比其他数据具有明显更大的残差。例如，根据CPU模型的残差图，我们可以看到观测数据200有非常大的残差。这就是一个离群值（outlier）的示例，它是一种预测值距离其实际值非常远的观测数据。由于对残差取平方的原因，离群值对RSS往往会产生显著的影响，给我们带来模型拟合效果不佳的印象。离群值可能是因为测量误差产生的，对它们的检测很重要，因为它们可能预示着不准确或非法的数据。另一方面，离群值也可能只是没有选对特征或创建了错误种类的模型的结果。

因为我们通常并不知道某个离群值是一个数据收集过程中的错误数据还是真实的观测数据，处理离群值会非常棘手。有时候，尤其是当我们有很少的离群值时，一种常见的手段是去除它们，因为包括它们往往会产生显著改变预测模型系数的效果。我们要说，离群值经常是具有较高影响（influence）的点。

离群值并不是具有高影响的唯一观测数据。高杠杆率点（high leverage point）也是这样的观测数据，在它们的特征中至少有一个具有极端值，因而远离大部分其他观测数据。cook距离（cook's distance）是一个结合了离群值和高杠杆率的概念来识别对数据具有高影响的那些点的典型衡量指标。要更深入地探索线性回归的诊断方法，有一个很好的参考书是John Fox编写的《An R Companion to Applied Regression》，由Sage Publications出版。

为了展示去除一个离群值的效果，我们要通过利用去掉观测数据 200 的训练数据创建一个新的CPU模型。然后，观察新模型是否在训练数据上有所改善。这里，我们会显示所采取的步骤和只有最后三行的模型摘要片段：

正如从减小的RSE和调整后的R2统计量看到的，我们在训练数据上得到了更好的拟合。当然，模型精确度的实际衡量还要看它在测试数据上的表现，我们也无法保证把观测数据200标记为虚假离群值的决定一定是正确的。

a我们得到了一个比以前更小的测试MSE，这往往是表明我们作出了正确选择的一个良好迹象。这里要再说一遍，因为测试集比较小，所以我们也无法肯定这个事实，尽管从MSE迹象来看是正面的。

预测分析：R语言实现2.5　线性回归的问题

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

预测分析：R语言实现2.5 线性回归的问题

华章出版社

热门文章

最新文章

相关课程

相关电子书

预测分析：R语言实现2.5　线性回归的问题