机器学习中的数学原理——多重回归算法

简介: 机器学习中的数学原理——多重回归算法

一、什么是多重回归

多重线性回归 (multiple linear regression) 是简单直线回归的推广,研究一个因变量与多个自变量之间的数量依存关系。多重线性回归用回归方程描述一个因变量与多个自变量的依存关系,简称 多重回归

二、案例分析

还记得我们之前研究最小二乘法的时候,是根据广告费来预测点击量的,广告费作为唯一变量。无论我们之后研究的梯度下降法还是多项式回归,都是建立在广告费作为唯一变量的前提下的。然而,实际情况中点击量是受到广告费在内的多个因素影响的。也就是说,以点击量作为因变量自变量会有多个。我们将原来的案例扩展一下,现在,决定点击量的除了广告费之外,还有广告的 展示位置和广告版面的大小等多个要素。设 广告费为 x1、广告栏的宽为 x2、广告栏的高为 x3,那么 fθ 可以 表示如下:

现在的问题就变成了怎么去求,按照我们之前的做法,只需要分别求出目标函数对偏微分,然后更新参数就可以了。但是在求偏微分之前,我们可以先试着简化表达式的写法。

想象一下,刚才我们说有 x1、x2、x3 共 3 个变量,下面我们把它推广到有 n个变量的情况。这时候 fθ 会变成什么样子呢?

每次都像这样写 n 个 x 岂不是很麻烦?所以我们现在还可以把参数 θ 和变量 x 看作向量

这里的1就相当于,这样的操作好处就在于保证了θ和 x 的维度相同,处理起来会容易很多。把 θ 转置之后,就可以计算一下它与 x 相乘的结果。

所以简化之后的表达式就变为:

接下来我们就使用 fθ(x)来求参数更新表达式吧,方法与之前一样。设 u = E(θ)、v = fθ(x)的部分是一样的。为了一般化,我们可以 考虑对第 j 个元素 θj 偏微分的表达式:

然后只需要求 v 对 θj 的微分就好了:

那么就可以得到第 j 个参数的更新表达式就是这样的:

这样我们就不用每个 θ 都写更新表达式,它们可以汇总为上面这样的一个表达式。像这样包含了多个变量的回归称为多重回归。可以基于一般化的思路来思考问题正是数学的优点。

三、总结

这一节主要学习了多重回归算法,有原来的一个自变量转化成了多个自变量,考虑多个自变量因变量的影响,从而确定最优参数。同时,我们还学习了简化表达式,将原来繁琐的多个表达式整理成一个通用的表达式,用到了向量的知识,注意和x相乘的时候需要进行转置,这一块在线性代数上面有提及。


相关文章
|
21天前
|
机器学习/深度学习 存储 算法
神经网络分类算法原理详解
神经网络分类算法原理详解
44 0
|
24天前
|
存储 算法 Serverless
【C/C++ 数据结构】深入探索数据结构中算法复杂度:从C++和数学的视角
【C/C++ 数据结构】深入探索数据结构中算法复杂度:从C++和数学的视角
46 0
|
16天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
9天前
|
机器学习/深度学习 自然语言处理 算法
|
21天前
|
缓存 算法 关系型数据库
深度思考:雪花算法snowflake分布式id生成原理详解
雪花算法snowflake是一种优秀的分布式ID生成方案,其优点突出:它能生成全局唯一且递增的ID,确保了数据的一致性和准确性;同时,该算法灵活性强,可自定义各部分bit位,满足不同业务场景的需求;此外,雪花算法生成ID的速度快,效率高,能有效应对高并发场景,是分布式系统中不可或缺的组件。
深度思考:雪花算法snowflake分布式id生成原理详解
|
25天前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。
|
25天前
|
机器学习/深度学习 算法 Python
LSTM(长短期记忆)网络的算法介绍及数学推导
LSTM(长短期记忆)网络的算法介绍及数学推导
16 0
|
28天前
|
算法
PID算法原理分析及优化
这篇文章介绍了PID控制方法,一种广泛应用于机电、冶金等行业的经典控制算法。PID通过比例、积分、微分三个部分调整控制量,以适应系统偏差。文章讨论了比例调节对系统响应的直接影响,积分调节如何消除稳态误差,以及微分调节如何减少超调。还提到了数字PID的实现,包括位置式、增量式和步进式,并探讨了积分饱和和微分项的优化策略。最后,文章简述了串级PID在电机控制中的应用,并强调了PID控制的灵活性和实用性。
38 1
|
29天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据处理到算法优化
【2月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是实现智能决策和预测的关键。本文将深入探讨如何通过有效的数据处理策略、合理的特征工程、选择适宜的学习算法以及进行细致的参数调优来提升模型性能。我们将剖析标准化与归一化的差异,探索主成分分析(PCA)的降维魔力,讨论支持向量机(SVM)和随机森林等算法的适用场景,并最终通过网格搜索(GridSearchCV)来实现参数的最优化。本文旨在为读者提供一条清晰的路径,以应对机器学习项目中的挑战,从而在实际应用中取得更精准的预测结果和更强的泛化能力。
|
1月前
|
机器学习/深度学习 算法 生物认证
基于深度学习的人员指纹身份识别算法matlab仿真
基于深度学习的人员指纹身份识别算法matlab仿真

热门文章

最新文章