【机器学习】多元线性回归基本概念

简介: 【1月更文挑战第23天】【机器学习】多元线性回归基本概念

1、基本概念

  线性回归是机器学习中有监督机器学习下的一种算法。 回归问题主要关注的是因变量(需要预测的值,可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。

  需要预测的值:即目标变量,target,y,连续值预测变量。

  影响目标变量的因素:$X_1$...$X_n$,可以是连续值也可以是离散值。

  因变量和自变量之间的关系:即模型,model,是我们要求解的。

1.1、连续值

连续值是数学和统计学中的一个概念,用来描述可以在一个区间内取无限个可能值的变量。这种变量可以是小数、分数,甚至是无理数,而不仅仅是整数。与之相对的是离散值,它只能取有限个数的数值。
以下是连续值的一些特点和例子:
1.无限可取值: 连续值可以在一个给定的区间内取无限多个可能的值。例如,一个温度传感器的读数可以是任何实数,而不仅仅是整数。
2.非间断性: 连续值在其取值范围内没有间断。这意味着在任意两个值之间,都存在另一个值。例如,在任意两个不同的身高之间,都存在无数个其他可能的身高。
3.测量和实际应用: 许多自然界和实际生活中的量是连续的,如时间、距离、温度、速度等。这使得连续值在科学、工程和统计学中得到广泛应用。
4.连续变量的例子: 身高、体重、温度、时间、电压等都是连续值的例子。在机器学习中,连续值通常涉及到回归问题,其中目标是预测一个数值而不是进行分类。

1.2、离散值

离散值是数学和统计学中的一个概念,用来描述只能取有限个数或者可数个数值的变量。与连续值相对,离散值的取值通常是可数的、分离的整数值,而不包括无限的连续范围。
以下是离散值的一些特点和例子:
1.有限或可数个值: 离散值只能取有限个或可数个数值。例如,投掷一枚骰子的点数就是离散值,只能是1、2、3、4、5 或 6。
2.存在间断: 离散值的取值通常是离散的,两个不同的离散值之间可能存在间断。例如,在一个离散的分类系统中,每个类别之间可能没有中间的分类。
3.计数数据: 许多计数问题涉及到离散值,比如统计某个时间段内发生的事件次数,这些次数通常是整数值。
离散变量的例子: 投掷骰子的点数、班级中学生的人数、汽车的数量等都是离散值的例子。

1.3、简单线性回归

  前面提到过,算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。

  $y = wx + b$

  这个公式中,y 是目标变量即未来要预测的值,x 是影响 y 的因素,w,b 是公式上的参数即要求的模型。其实 b 就是咱们的截距,w 就是斜率嘛! 所以很明显如果模型求出来了,未来影响 y 值的未知数就是一个 x 值,也可以说影响 y 值 的因素只有一个,所以这是就叫简单线性回归的原因。

  同时可以发现从 x 到 y 的计算,x 只是一次方,所以这是算法叫线性回归的原因。 其实,大家上小学时就已经会解这种一元一次方程了。为什么那个时候不叫人工智能算法呢?因为人工智能算法要求的是最优解!

1.4、最优解

  Actual value:真实值,一般使用 y 表示。

  Predicted value:预测值,是把已知的 x 带入到公式里面和出来的参数 w,b 计算得到的,一般使用 $\hat{y}$ 表示。

   Error:误差,预测值和真实值的差距,一般使用 $\varepsilon$ 表示。

  最优解:尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失 Loss。

  Loss:整体的误差,Loss 通过损失函数 Loss function 计算得到。

1.5、多元线性回归

  现实生活中,往往影响结果 y 的因素不止一个,这时 x 就从一个变成了 n 个,$X_1$...$X_n$ 同时简单线性回归的公式也就不在适用了。多元线性回归公式如下:

  $\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + b$

  b是截距,也可以使用$w_0$来表示

  $\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + w_0$

  $\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + w_0 * 1$

  使用向量来表示,X表示所有的变量,是一维向量;W表示所有的系数(包含$w_0$),是一维向量,根据向量乘法规律,可以这么写:

  $\hat{y} = W^TX$

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
52 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
11天前
|
机器学习/深度学习 数据采集 算法
探索机器学习中的线性回归
【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型,一个在机器学习领域中广泛使用的预测工具。我们将从理论出发,逐步引入代码示例,展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念,同时也为有一定基础的读者提供实践指导。
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
探索机器学习:从线性回归到深度学习
在这篇文章中,我们将一起踏上一场激动人心的旅程,穿越机器学习的广阔天地。我们将从最基本的线性回归开始,逐步深入到复杂的深度学习模型。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和深入的理解。让我们一起探索这个充满无限可能的世界吧!
|
1月前
|
机器学习/深度学习 API
机器学习入门(七):线性回归原理,损失函数和正规方程
机器学习入门(七):线性回归原理,损失函数和正规方程
|
1月前
|
机器学习/深度学习 传感器 算法
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
机器学习入门(一):机器学习分类 | 监督学习 强化学习概念
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从线性回归到深度学习
【9月更文挑战第4天】在这篇文章中,我们将深入探讨机器学习的世界,从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过实际的代码示例,揭示这些模型背后的数学原理,以及如何在现实世界的问题中应用它们。无论你是初学者还是有经验的数据科学家,这篇文章都将为你提供新的视角和深入的理解。
|
3月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
87 2
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
61 1
|
3月前
|
机器学习/深度学习 算法
【机器学习】解释对偶的概念及SVM中的对偶算法?(面试回答)
解释了对偶的概念,指出对偶性在优化问题中的重要性,尤其是在强对偶性成立时可以提供主问题的最优下界,并且详细阐述了支持向量机(SVM)中对偶算法的应用,包括如何将原始的最大间隔优化问题转换为对偶问题来求解。
77 2
|
3月前
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
525 0
下一篇
无影云桌面