【机器学习中的矩阵求导】(六)Jacobian矩阵和Hessian矩阵

简介: 矩阵对矩阵的求导。假如有p×q矩阵F要对m×n的矩阵X求导,根据第一篇求导布局的定义,矩阵F的pq个元素要对矩阵X的mn个值分别求导,所以求导结果一共有mnpq个,求导的结果如何排列:0.1 主流的矩阵对矩阵求导定义

零、回顾上一讲

矩阵对矩阵的求导。


假如有p×q矩阵F要对m×n的矩阵X求导,根据第一篇求导布局的定义,矩阵F的pq个元素要对矩阵X的mn个值分别求导,所以求导结果一共有mnpq个,求导的结果如何排列:


0.1 主流的矩阵对矩阵求导定义

现在主流的矩阵对矩阵求导定义是对矩阵先做向量化,然后使用向量对向量的求导。

这里的向量化一般使用列向量,即矩阵对矩阵的求导可以表示为:

image.png

0.2 矩阵对矩阵求导的微分法

向量化的矩阵对矩阵求导,主要是为了使用类似于前面讲过的微分法求导。之前(三)标量对向量矩阵求导的微分法里有:image.png

image.png

image.png

二、Hessian矩阵

黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。 在数学中,海森矩阵(Hessian matrix 或 Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵。

假设有一实数函数:


image.pngimage.png

image.png

三、应用

3.1 多元函数的极值

定理:(二元函数取得极值的充分条件)如果函数 z = f ( x , y ) z=f(x, y)z=f(x,y) 在点 ( x 0 , y 0 ) \left(x_{0}, y_{0}\right)(x

0

,y

0

) 的某邻域内具有连续的二阶偏导数, ( x 0 , y 0 ) \left(x_{0}, y_{0}\right)(x

0

,y

0

) 是它的驻点,令:


image.png

image.png

image.png

相关文章
|
6月前
|
机器学习/深度学习 搜索推荐 数据挖掘
R语言矩阵特征值分解(谱分解)和奇异值分解(SVD)特征向量分析有价证券数据
R语言矩阵特征值分解(谱分解)和奇异值分解(SVD)特征向量分析有价证券数据
|
机器学习/深度学习 数据采集 资源调度
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
167 0
【推荐系统】推荐场景为什么不可以使用SVD分解共现矩阵
|
机器学习/深度学习 决策智能
矩阵分析 (四)向量和矩阵的范数
矩阵分析 (四)向量和矩阵的范数
178 0
|
机器学习/深度学习 资源调度 算法
学习笔记: 线性代数-矩阵的相似性
线性代数个人学习笔记
126 0
|
移动开发
|
人工智能 算法 BI
基础算法-差分矩阵
基本思路 如果将差分可以看作是一维差分,那么差分矩阵便是二维差分,与二维前缀和也就是子矩阵的和相对应,互为逆运算。
|
机器学习/深度学习 算法
深度之眼(六)——矩阵的逆(附:logistic模型一些想法)
深度之眼(六)——矩阵的逆(附:logistic模型一些想法)
深度之眼(六)——矩阵的逆(附:logistic模型一些想法)
|
机器学习/深度学习
【机器学习中的矩阵求导】(六)Jacobian矩阵和Hessian矩阵
矩阵对矩阵的求导。 假如有p×q矩阵F要对m×n的矩阵X求导,根据第一篇求导布局的定义,矩阵F的pq个元素要对矩阵X的mn个值分别求导,所以求导结果一共有mnpq个,求导的结果如何排列:
779 0
【机器学习中的矩阵求导】(六)Jacobian矩阵和Hessian矩阵