多元线性回归的模型解释、假设检验、特征选择(一)

简介: 多元线性回归的模型解释、假设检验、特征选择(一)

线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,这是进入ML的第一步。

image.png

在继续讨论之前,让我们回顾一下线性回归可以大致分为两类。

简单线性回归:当只有一个输入变量时,它是线性回归最简单的形式。

多元线性回归:这是一种线性回归的形式,当有两个或多个预测因子时使用。

我们将看到多个输入变量如何共同影响输出变量,同时还将了解计算与简单LR模型的不同之处。我们还将使用Python构建一个回归模型。

最后,我们将深入学习线性回归,学习共线性、假设检验、特征选择等内容。

现在有人可能会想,我们也可以用简单的线性回归来分别研究我们对所有自变量的输出。

为什么需要线性回归

从多个输入变量预测结果。但是,真的是这样吗?

考虑到这一点,假设你要估算你想买的房子的价格。你知道建筑面积,房子的年代,离你工作地点的距离,这个地方的犯罪率等等。

现在,这些因素中的一些将会对房价产生积极的影响。例如,面积越大,价格越高。另一方面,工作场所的距离和犯罪率等因素会对你对房子的估计产生负面影响。

简单线性回归的缺点:当我们只对一个结果感兴趣时,运行单独的简单线性回归会导致不同的结果。除此之外,可能还有一个输入变量本身与其他一些预测器相关或依赖于其他一些预测器。这可能会导致错误的预测和不满意的结果。

这就是多元线性回归发挥作用的地方。

数学公式

image.png

这里,Y是输出变量,X项是相应的输入变量。注意,这个方程只是简单线性回归的延伸,和每个指标都有相应的斜率系数(β)。

β的第一个参数(βo)是拦截常数和Y的值是在缺乏预测(我。e当所有X项都为0时),它在给定的回归问题中可能有意义,也可能有意义,也可能没有意义。它通常在回归的直线/平面上提供一个相关的推动。

可视化数据

我们将使用南加州大学马歇尔商学院网站上的广告数据。你可以在这里下载。

http://faculty.marshall.usc.edu/gareth-james/ISL/data.html

广告数据集包括产品在200个不同市场的销售情况,以及三种不同媒体(电视、广播和报纸)的广告预算。它是这样的

image.png

第一行数据显示,电视、广播和报纸的广告预算分别为230.1k美元、37.8k美元和69.2k美元,相应的销售量为22.1k(或22.1万)。

在简单的线性回归中,我们可以看到在不使用其他两种媒体的情况下,每一种广告媒体是如何影响销售的。然而,在实践中,这三者可能会共同影响净销售额。我们没有考虑这些媒体对销售的综合影响。

多元线性回归通过在一个表达式中考虑所有变量来解决这个问题。因此,我们的线性回归模型现在可以表示为:

image.png

发现这些常数的值(β)是什么回归模型通过最小化误差函数,拟合最好的行或超平面(根据输入变量的数量)。这是通过最小化残差平方和( Residual Sum of Squares)来实现的,残差平方和是通过将实际结果和预测结果之间的差异平方得到的。

image.png

目录
相关文章
|
数据库
分布式集群时钟同步问题及解决方案
分布式集群时钟同步问题及解决方案
975 1
|
8月前
|
人工智能 安全 API
HarmonyOS5云服务技术分享--登录邮件功能整理
本文详细解析了HarmonyOS认证服务中基于ArkTS API 12的邮箱登录全流程,涵盖注册、密码登录、验证码登录、敏感操作处理及密码重置等功能。通过清晰的代码示例与注意事项说明,帮助开发者快速实现安全可靠的邮箱认证流程,同时提供账号关联、风控策略等扩展建议,助力优化用户体验。适合初学者与进阶开发者参考实践。
|
11月前
|
数据采集 存储 关系型数据库
数据采集:从何开始?
数据采集:从何开始?
578 65
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
算法 安全 量子技术
构建未来:量子计算在软件开发中的潜力
【10月更文挑战第29天】量子计算作为革命性的计算范式,正从理论走向实际应用。本文探讨了量子计算的基本概念、在软件开发中的潜在应用,如优化问题、药物发现和加密安全,以及如何通过学习量子编程语言和使用现有工具来实验和测试量子算法,展望其在未来软件开发中的重要作用。
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
Docker 容器
docker 安装cloudreve
docker 安装cloudreve
336 2
西门子S7-1200编程实例,移位和循环移位指令如何使用?
西门子S7-1200的移位指令包括左移位指令和右移位指令,循环移位指令包括循环左移位指令和循环右移位指令。
西门子S7-1200编程实例,移位和循环移位指令如何使用?
|
API 开发工具
MAC 环境变量设置方法
本文介绍在MAC环境下设置环境变量的方法,以“DASHSCOPE_API_KEY”为例,图文展示设置环境变量的操作方法。
|
弹性计算 对象存储 CDN
阿里云流量怎么收费?0.8元每GB?地域不同流量价格不同
阿里云流量怎么收费?0.8元每GB?地域不同流量价格不同,除了华北 1 (青岛)地域是0.72元/GB的价格,其他的阿里云中国内地云服务器流量价格均为0.8元每GB;中国香港地域价格为1GB流量1元;美国、英国和德国流量最便宜是0.5元每GB。
3490 1
阿里云流量怎么收费?0.8元每GB?地域不同流量价格不同