线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,这是进入ML的第一步。
在继续讨论之前,让我们回顾一下线性回归可以大致分为两类。
简单线性回归:当只有一个输入变量时,它是线性回归最简单的形式。
多元线性回归:这是一种线性回归的形式,当有两个或多个预测因子时使用。
我们将看到多个输入变量如何共同影响输出变量,同时还将了解计算与简单LR模型的不同之处。我们还将使用Python构建一个回归模型。
最后,我们将深入学习线性回归,学习共线性、假设检验、特征选择等内容。
现在有人可能会想,我们也可以用简单的线性回归来分别研究我们对所有自变量的输出。
为什么需要线性回归
从多个输入变量预测结果。但是,真的是这样吗?
考虑到这一点,假设你要估算你想买的房子的价格。你知道建筑面积,房子的年代,离你工作地点的距离,这个地方的犯罪率等等。
现在,这些因素中的一些将会对房价产生积极的影响。例如,面积越大,价格越高。另一方面,工作场所的距离和犯罪率等因素会对你对房子的估计产生负面影响。
简单线性回归的缺点:当我们只对一个结果感兴趣时,运行单独的简单线性回归会导致不同的结果。除此之外,可能还有一个输入变量本身与其他一些预测器相关或依赖于其他一些预测器。这可能会导致错误的预测和不满意的结果。
这就是多元线性回归发挥作用的地方。
数学公式
这里,Y是输出变量,X项是相应的输入变量。注意,这个方程只是简单线性回归的延伸,和每个指标都有相应的斜率系数(β)。
β的第一个参数(βo)是拦截常数和Y的值是在缺乏预测(我。e当所有X项都为0时),它在给定的回归问题中可能有意义,也可能有意义,也可能没有意义。它通常在回归的直线/平面上提供一个相关的推动。
可视化数据
我们将使用南加州大学马歇尔商学院网站上的广告数据。你可以在这里下载。
http://faculty.marshall.usc.edu/gareth-james/ISL/data.html
广告数据集包括产品在200个不同市场的销售情况,以及三种不同媒体(电视、广播和报纸)的广告预算。它是这样的
第一行数据显示,电视、广播和报纸的广告预算分别为230.1k美元、37.8k美元和69.2k美元,相应的销售量为22.1k(或22.1万)。
在简单的线性回归中,我们可以看到在不使用其他两种媒体的情况下,每一种广告媒体是如何影响销售的。然而,在实践中,这三者可能会共同影响净销售额。我们没有考虑这些媒体对销售的综合影响。
多元线性回归通过在一个表达式中考虑所有变量来解决这个问题。因此,我们的线性回归模型现在可以表示为:
发现这些常数的值(β)是什么回归模型通过最小化误差函数,拟合最好的行或超平面(根据输入变量的数量)。这是通过最小化残差平方和( Residual Sum of Squares)来实现的,残差平方和是通过将实际结果和预测结果之间的差异平方得到的。