线性回归

简介: 写在最前面的几句话,我们下面所有的问题的符号规约如下:代表训练集中实例的数量代表输入变量代表目标变量代表训练集中的实例代表第个实例表示第个变量代表学习算法的解决方案或函数,也成为假设(hypothesis)是代价函数1、单变量线性回归单变量的线性回归比较简单,一般表达式为,现在我们来求代价函数。

写在最前面的几句话,我们下面所有的问题的符号规约如下:

  • m代表训练集中实例的数量
  • x代表输入变量
  • y代表目标变量
  • (x, y)代表训练集中的实例
  • (x^{(i)}, y^{(i)})代表第i个实例
  • x_i表示第i个变量
  • h代表学习算法的解决方案或函数,也成为假设(hypothesis)
  • J是代价函数

1、单变量线性回归

单变量的线性回归比较简单,一般表达式为h_\theta(x) = \theta_0 + \theta_1x,现在我们来求代价函数。我们一般用平方差损失函数,即(h_\theta(x^{(i)}) - y^{(i)})^2,因为我们求的是平均损失,而所有的样本个数为m,那么J(\theta_0,\theta_1) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,后面为了方便计算,在m旁边乘了个2,所以,原公式变为J(\theta_0,\theta_1) = \frac{1}{2m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,我们的目标是让损失函数最小。
一个经典的优化方法是梯度下降法(Gradient Descent)。从公式可以看出,我们需要找到一个参数\theta_0\theta_1使得损失函数最小。现在所有的xy是已知的,所以J(\theta_0,\theta_1)是关于\theta_0\theta_1的函数(搞清楚这点很重要)。
现在我们考虑一个简单的情况,假设\theta_0为0。那么损失函数变为J(\theta_1),如果我们对和\theta_1取任意的值,最后可以组成如下图所示的图形

img_a261235aec141a7af9a03b43887721c5.png

可以看出当 J(\theta_1)是关于\theta_1的函数时,我们需要取到一个\theta_1使得J(\theta_1)最小。如果加上J(\theta_0),对J(\theta_0),J(\theta_1)任意取值,最后可以形成如图所示的图形

img_e90aad24f2cb7b4985c1f012cb71802f.png

横轴为J(\theta_0),J(\theta_1),数轴为J(\theta_0,\theta_1)所谓的梯度下降就是不断迭代J(\theta_0),J(\theta_1)使得损失函数最小。当然,一般的函数图像不会像这样的,一般都是这样像丘壑一样高低不平

img_d6d2538e381e8e39dc1c43eca5d24171.png

梯度下降法(Gradient Descent)如下:首先我们需要对\theta_0,\theta_1随机初始一个值,对应上图就是随机从图像的一点出发,然后不断更新\theta_0,\theta_1。如图:

img_0848cd73fc91d2ca5a2186bec462d4cb.png

梯度下降这事怎么解释呢?首先我们很疑惑的是,为什么要减去导数?其实,我们只不过是沿着梯度的方向变化而已而梯度的方向就是函数对各个变量偏导数的方向,我们需要这个方向,所以导数保留了,然后我们为什么乘\alpha,就是因为我们可以任意变换在梯度方向的变化量。总而言之最重要的一点是,梯度的方向!!!方向!!!
我们还是以最简单的情况来看,即\theta_0 = 0

img_1a85c10aa7e50ec465daad9da7a56943.png

我们每次都J(\theta_1)求导,那么沿着这个方向,我们不断变化然后取到最小值。
关于单变量的线性回归,我们可以求出他们需要更新值是:

img_2aec166ec66362537970a7b5b5fa6327.png

推导很简单,直接将h_\theta(x)展开成h_\theta(x) = \theta_0 + \theta_1x,然后求偏导即可。

2、多变量线性回归

讲完了单变量线性回归,多变量就好讲了。多变量只不过多了很多x_i的变量,它的目标函数变成了h_\theta(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n。但是为了公式简洁(数学家就是强迫症),我们假设x_0 = 1,则公式转化为h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n,然后代价函数是J(\theta_0,\theta_1,...,\theta_n) = \frac{1}{m}\sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2,梯度下降算法为:

img_9c6c35514b8146b44004e52b8b4c992c.png

即:
img_14e792d6666a19e637cf260186344e3e.png

求导之后得到(j是第j个变量):

img_9689fb48f411108dd288b12789d5f4ea.png

例如(其他的就不写了,这只是举个栗子):


img_b15fd9eb994686dbf7072415b70ede46.png

3、一些基础杂点

3.1特征缩放

为什么需要特征缩放。因为在多维问题中,如果每一个变量的取值范围都差不多,那么梯度下降很快。但是如果一个变量的取值为0-5,另一个为0-2000,那么分别以这两个参数为横坐标,绘制损失函数的等高线图,可以看出图像很扁,梯度下降需要很多次迭代才能收敛。


img_c3f0d0843deaa460e81737a0bf73e9c8.png

如果将所有特征缩放到-1到1之间(很多缩放方法,比如最大最小缩放之类的)


img_3e3c56c5ce510f34e2bdf7b700fb9740.png

可以看出图像并没有那么扁,梯度下降很好收敛。

3.2正规方程(最小二乘法)

损失函数的另一种解法是正规方程,它能一步得到解。这种解法是很直观的数学解法,但是在特征维度很多的时候,在工程上没有任何优势,所以现在都是用梯度下降。


img_db1f78c2d9ee376b6ba6864c180ce52e.png

这是代数形式的正规方程,当时吴恩达老师说如果求每个\theta的偏导会很麻烦,所以用了矩阵的形式表示,然后解出\theta\theta = (X^TX)^{-1}X^TY,这里\theta, X, Y都是向量。这种解法作为了解了,毕竟现在都是梯度下降的天下了。

目录
相关文章
|
2月前
|
机器学习/深度学习 数据挖掘 C#
用C#实现简单的线性回归
用C#实现简单的线性回归
31 1
|
3月前
|
机器学习/深度学习
逻辑回归
【7月更文挑战第22天】逻辑回归
37 5
|
3月前
什么是线性回归
【7月更文挑战第21天】什么是线性回归。
51 2
|
3月前
|
数据可视化 Python
数学方法解决线性回归问题
【7月更文挑战第21天】数学方法解决线性回归问题
38 2
|
3月前
|
机器学习/深度学习 算法 数据挖掘
线性回归
【7月更文挑战第21天】线性回归。
39 1
|
4月前
|
机器学习/深度学习 存储 自然语言处理
逻辑回归的介绍和应用
**逻辑回归简介** 逻辑回归是一种分类模型,尽管名字含“回归”,实际上是用于二分类问题的。它简单易懂,计算高效,适用于许多领域,如医学、社会科学、市场营销等。优点是模型简单,易于实现,具有强解释性。然而,它易受多重共线性影响,可能欠拟合,分类精度有限,尤其对非线性问题和数据不平衡问题处理不佳。在实践中,逻辑回归常作为其他复杂算法的基线,如用于信用卡欺诈检测和点击率预测。通过调整和与其他技术结合,如GBDT,可以提升其性能。
|
5月前
|
机器学习/深度学习 定位技术 数据处理
认识线性回归模型
线性回归是一种广泛应用于统计学和机器学习的技术,用于研究两个或多个变量之间的线性关系。
53 1
|
5月前
R方和线性回归拟合优度
R方和线性回归拟合优度
|
机器学习/深度学习 API 算法框架/工具
二、逻辑回归
二、逻辑回归