机器学习中的数学原理——梯度下降法（最速下降法）

2023-01-30 958

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习中的数学原理——梯度下降法（最速下降法）

一、什么是梯度下降法

梯度下降法（英语：Gradient descent）是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。

二、算法分析

在上一篇最小二乘法里面还记得我们的误差公式E(θ)吗？那时候我们说要使E(θ)尽可能小，即修改参数 θ，使这个值变得越来越小。

但是一边修改 θ 的值，一边计算 E(θ) 并与之前的值相比较的做法实在是太麻烦了。所以我们使用微分的思想来求θ 的值。微分是计算变化的快慢程度时使用的方法。

首先我们看表达式为 g(x) = (x-1)^2，g(x) = (x-1)^2 的二次函数图像如下所示

它的最小值是 g(x) = 0，出现在x = 1 时。这个二次函数的增减表为：

在 x < 1 时，g(x) 的图形向右下方延伸，反之当 x > 1 时，g(x) 的图形向右上方延伸，换句话说就是从左下方开始延伸的。 x = 3 这一点，为了使 g(x)的值变小，我们需要向左移动x，也就是必须减小 x。如果是在另一侧的 x = −1 这一点，为了使 g(x) 的值变小，我们需要向右移动 x，也就是必须增加 x。