1、基本概念
线性回归是机器学习中有监督机器学习下的一种算法。 回归问题主要关注的是因变量(需要预测的值,可以是一个也可以是多个)和一个或多个数值型的自变量(预测变量)之间的关系。
需要预测的值:即目标变量,target,y,连续值预测变量。
影响目标变量的因素:$X_1$...$X_n$,可以是连续值也可以是离散值。
因变量和自变量之间的关系:即模型,model,是我们要求解的。
1.1、连续值
连续值是数学和统计学中的一个概念,用来描述可以在一个区间内取无限个可能值的变量。这种变量可以是小数、分数,甚至是无理数,而不仅仅是整数。与之相对的是离散值,它只能取有限个数的数值。
以下是连续值的一些特点和例子:
1.无限可取值: 连续值可以在一个给定的区间内取无限多个可能的值。例如,一个温度传感器的读数可以是任何实数,而不仅仅是整数。
2.非间断性: 连续值在其取值范围内没有间断。这意味着在任意两个值之间,都存在另一个值。例如,在任意两个不同的身高之间,都存在无数个其他可能的身高。
3.测量和实际应用: 许多自然界和实际生活中的量是连续的,如时间、距离、温度、速度等。这使得连续值在科学、工程和统计学中得到广泛应用。
4.连续变量的例子: 身高、体重、温度、时间、电压等都是连续值的例子。在机器学习中,连续值通常涉及到回归问题,其中目标是预测一个数值而不是进行分类。
1.2、离散值
离散值是数学和统计学中的一个概念,用来描述只能取有限个数或者可数个数值的变量。与连续值相对,离散值的取值通常是可数的、分离的整数值,而不包括无限的连续范围。
以下是离散值的一些特点和例子:
1.有限或可数个值: 离散值只能取有限个或可数个数值。例如,投掷一枚骰子的点数就是离散值,只能是1、2、3、4、5 或 6。
2.存在间断: 离散值的取值通常是离散的,两个不同的离散值之间可能存在间断。例如,在一个离散的分类系统中,每个类别之间可能没有中间的分类。
3.计数数据: 许多计数问题涉及到离散值,比如统计某个时间段内发生的事件次数,这些次数通常是整数值。
离散变量的例子: 投掷骰子的点数、班级中学生的人数、汽车的数量等都是离散值的例子。
1.3、简单线性回归
前面提到过,算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。
$y = wx + b$
这个公式中,y 是目标变量即未来要预测的值,x 是影响 y 的因素,w,b 是公式上的参数即要求的模型。其实 b 就是咱们的截距,w 就是斜率嘛! 所以很明显如果模型求出来了,未来影响 y 值的未知数就是一个 x 值,也可以说影响 y 值 的因素只有一个,所以这是就叫简单线性回归的原因。
同时可以发现从 x 到 y 的计算,x 只是一次方,所以这是算法叫线性回归的原因。 其实,大家上小学时就已经会解这种一元一次方程了。为什么那个时候不叫人工智能算法呢?因为人工智能算法要求的是最优解!
1.4、最优解
Actual value:真实值,一般使用 y 表示。
Predicted value:预测值,是把已知的 x 带入到公式里面和猜出来的参数 w,b 计算得到的,一般使用 $\hat{y}$ 表示。
Error:误差,预测值和真实值的差距,一般使用 $\varepsilon$ 表示。
最优解:尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失 Loss。
Loss:整体的误差,Loss 通过损失函数 Loss function 计算得到。
1.5、多元线性回归
现实生活中,往往影响结果 y 的因素不止一个,这时 x 就从一个变成了 n 个,$X_1$...$X_n$ 同时简单线性回归的公式也就不在适用了。多元线性回归公式如下:
$\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + b$
b是截距,也可以使用$w_0$来表示
$\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + w_0$
$\hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + w_0 * 1$
使用向量来表示,X表示所有的变量,是一维向量;W表示所有的系数(包含$w_0$),是一维向量,根据向量乘法规律,可以这么写:
$\hat{y} = W^TX$