最优化学习 数值优化的例子:实现最小二乘法

简介: 最优化学习 数值优化的例子:实现最小二乘法

上溢和下溢


这里先介绍一个数值优化常出现的一个概念上溢和下溢

下溢(Underflow):当接近零的数被四舍五⼊为零时发生下溢。

上溢(Overflow):当⼤量级的数被近似为∞ \infin∞或− ∞ -\infin−∞时发⽣上溢。


必须对上溢和下溢进行数值稳定的⼀个例子是softmax 函数。softmax 函数经常用于预测与范畴分布相关联的概率,定义为:


image.png

最小二乘法介绍


我们接下来会分别用梯度下降法、牛顿法、约束优化法分别解我们的最小二乘法,那我们首先要明白最小二乘法。


最小二乘法(Least Squares)是回归分析中的一种标准方法,它是用来近似超定系统(Overdetermined System)答案的一种方法。超定系统是指数学中的一种概念,一组包含未知数的方程组中,如果方程的数量大于未知数的数量,那么这个系统就是一个超定系统(超定方程组)。超定系统(超定方程组)一般是无解的,只能求近似解。而最小二乘法就是求超定方程组近似解的一种方法。

举个通俗的例子,如下二维平面图中有很多个点,假设我们想用一条直线来拟合数据,即期望能找到一条直线能最好地穿过这些数据点。


20210602193657161.png


我们这里引入线性最小二乘法:


image.png

梯度下降法 Gradient Decent


在我的最速下降法(steepest Descent)中介绍了梯度下降法和最速下降法,梯度下降法就是一阶可微的最速下降法,在这里我们可以对其进行求解。

假设我们希望找到最小化该式的x xx值,那我们需要得到它的梯度:


image.png

 

梯度下降法建议我们新的点更新为


image.png

其中ϵ 为学习率(learning rate),是⼀个确定步长大小的正标量。

首先我们给定初始数据


# 导入相应的库
import numpy as np
import numpy.linalg as la
x0 = np.array([1.0, 1.0, 1.0])
A = np.array([[1.0, -2.0, 1.0], [0.0, 2.0, -8.0], [-4.0, 5.0, 9.0]])
b = np.array([0.0, 8.0, -9.0])
epsilon = 0.001
delta = 1e-3
# 给定A,b,真正的解x 为[29, 16, 3]

梯度下降法

"""
梯度下降法
"""
def matmul_chain(*args): # 定义一个矩阵连乘的函数
    if len(args) == 0:
        return np.nan
    result = args[0]
    for x in args[1:]:
        result = result @ x
    return result
def gradient_decent(x, A, b, epsilon, delta):
    while la.norm(matmul_chain(A.T, A, x) - matmul_chain(A.T, b)) > delta: # 默认ord = 2,没有到达边界
        x -= epsilon*(matmul_chain(A.T, A, x) - matmul_chain(A.T, b)) # 更新x
    return x
gradient_decent(x0, A, b, epsilon, delta)

array([27.82277014, 15.34731055, 2.83848939])


牛顿法(Newton’s Method)


具体的推导过程和结果可以看牛顿法(Newton’s method)

我们的牛顿法基于我们的优化函数能够二阶可微,这样我们就可以利用一个二阶泰勒展开来近似x 0 的f ( x )


image.png

然后根据对f ( x )导可以得到我们临界点:

image.png

牛顿法迭代地更新近似函数和跳到近似函数的最小点可以比梯度下降法更快地到达临界点。这在接近全局极小时是⼀个特别有用的性质,但是在鞍点附近是有害的。

对于我们的最小二乘法,我们可以计算得到,我们的海瑟矩阵其实就是image.png

进一步计算我们的最优解


image.png

"""
牛顿法
"""
def newton(x, A, b, delta):
    x = matmul_chain(np.linalg.inv(matmul_chain(A.T, A)), A.T, b)
    return x
newton(x0, A, b, delta)

array([29., 16., 3.])

我们可以看出来,在我们的牛顿法(Newton’s method)中提过,对于二阶的函数,我们几乎可以达到一步就到的情况,这个就是其中的例子


约束优化


这一部分内容详细推导可以看我的KKT条件(最优解的一阶必要条件) 和约束优化问题

我们希望通过m mm个函数g ( i )和n nn个函数h ( j ) h 描述S SS,那么S SS可以表示为S = { x ∣ ∀ i , g ( i ) ( x ) = 0(x)≤0}。其中涉及g ( i )的等称为等式约束,涉及h ( j )的不等式称为不等式约束。我们为每个约束引⼊新的变量λ i 和α j  ,这些新变量被称为KKT 乘子。⼴义拉格朗日式可以如下定义:


image.png

可以通过优化无约束的广义拉格朗日式解决约束最小化问题:


image.png


优化该式与下式等价:

image.png

针对上述实例,约束优化image.png

引⼊广义拉格朗日式:

网络异常,图片无法展示
|

解决以下问题:image.png

关于x 对 Lagrangian微分,我们得到方程:

image.png


得到解的形式是:

image.png

λ的选择必须使结果服从约束,可以对λ 梯度上升找到这个值:


image.png

"""
约束优化,约束解的大小
"""
def constrain_opti(x, A, b, delta):
    k = len(x)
    lamb = 0
    while np.abs(np.dot(x.T, x) - 1) > 1e-5: # delta设为5e-2, 最优设为0
        x = matmul_chain(np.linalg.inv(matmul_chain(A.T, A)+2*lamb*np.identity(k)), A.T, b)
        lamb += np.dot(x.T, x)-1
    return x
constrain_opti(x0, A, b, delta)

array([ 0.23637902, 0.05135858, -0.94463626])

相关文章
|
机器学习/深度学习 算法
最小二乘法的极大似然解释
在真实数据中,一个x值可能对应多个y值,因为实际y值可能是受多种因素影响,所以我们可以假设任意一个x对于的y的真实值服从正态分布。我们什么时候可以认为模型 hθ(x)hθ(x) 拟合出来的点最好?当然是 hθ(x)hθ(x) 取值概率最大的时候。
90 1
|
8月前
|
机器学习/深度学习 运维 算法
高斯混合模型:GMM和期望最大化算法的理论和代码实现
高斯混合模型(gmm)是将数据表示为高斯(正态)分布的混合的统计模型。这些模型可用于识别数据集中的组,并捕获数据分布的复杂、多模态结构。
437 0
|
机器学习/深度学习 算法 数据处理
无约束最优化(五) 最小二乘法问题的解法
无约束最优化(五) 最小二乘法问题的解法
201 0
|
机器学习/深度学习 人工智能
【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)
【机器学习】信息量、香农熵、信息增益(增加例子,方便理解)
266 0
|
人工智能 开发者
回归方程求解小例子 | 学习笔记
快速学习回归方程求解小例子
回归方程求解小例子 | 学习笔记
|
Python 算法 机器学习/深度学习
《贝叶斯方法:概率编程与贝叶斯推断》——导读
贝叶斯方法是一种常用的推断方法,然而对读者来说它通常隐藏在乏味的数学分析章节背后。关于贝叶斯推断的书通常包含两到三章关于概率论的内容,然后才会阐述什么是贝叶斯推断。不幸的是,由于大多数贝叶斯模型在数学上难以处理,这些书只会为读者展示简单、人造的例子。
1762 0
《贝叶斯方法:概率编程与贝叶斯推断》——导读