吴恩达《Machine Learning》精炼笔记 2：梯度下降与正规方程-阿里云开发者社区

吴恩达《Machine Learning》精炼笔记 2：梯度下降与正规方程

2021-12-20 139

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 吴恩达《Machine Learning》精炼笔记 2：梯度下降与正规方程

今天带来第二周课程的笔记：梯度下降与正规方程。

主要内容：

多维特征
多变量梯度下降
梯度下降法实践
正规方程

多维特征Multiple Features

还是利用房价模型的例子，增加了更多的特征，比如：房间楼层、房间数量、地理位置等，构成了一个含有多个变量的模型

n：代表的是特征的数量

x(i)：代表第i个训练实例，是特征矩阵中的第i行，是一个向量vector

多变量梯度下降

算法目标

与单变量线性回归类似，在多变量线性回归中，构建一个代价函数，则这个代价函数是所有建模误差的平方和，即：

Python代码

给定特征矩阵X，输出y，学习率θ，求代价函数J

import numpy as np
def computeCost(X,y,theta):
  inner = np.power(((X * theta.T) - y), 2)  # 求解每个平方项
  return np.sum(inner) / (2 / len(X))   # 求和再除以2*len(X)

梯度下降法实践

特征缩放

面对多维度特征问题，我们需要保证这些特征具有相近的尺度，帮助梯度下降算法更快地收敛。

以房价问题为例，假设仅用两个特征，房屋的尺寸和数量，以两个参数分别为横纵坐标，假设尺寸在0-2000平方英尺，数量在0-5之间。

绘制代价函数的等高线图能，看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。

学习率问题

梯度下降算法的每次迭代受到学习率的影响

如果学习率过小，则达到收敛所需的迭代次数会非常高，收敛速度非常慢
如果学习率过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛

常用学习率包含：α=0.01,0.03,0.1,0.31,3,10α=0.01,0.03,0.1,0.31,3,10

特征和多项式回归

如房价预测问题，

同时房屋面积=宽度 * 深度

在实际拟合数据的时候，可能会选择二次或者三次方模型；如果采用多项式回归模型，在运行梯度下降法之前，特征缩放很有必要。

正规方程 Normal Equation

梯度下降缺点

需要多次迭代才能达到局部最优解

正规方程demo

正规方程具有不可逆性

正规方程就是通过求解下面例子中的方程找出使得代价函数最小参数θ：

不可逆矩阵不能使用正规方程求解

Normal Equation VS Gradient Descent

梯度下降和正规方程的比较：

参数θ求解过程

至此，第一周的课程笔记完毕！

系列文章：

吴恩达《Machine Learning》精炼笔记 1：监督学习与非监督学习