零、回顾上一讲
矩阵对矩阵的求导。
假如有p×q矩阵F要对m×n的矩阵X求导,根据第一篇求导布局的定义,矩阵F的pq个元素要对矩阵X的mn个值分别求导,所以求导结果一共有mnpq个,求导的结果如何排列:
0.1 主流的矩阵对矩阵求导定义
现在主流的矩阵对矩阵求导定义是对矩阵先做向量化,然后使用向量对向量的求导。
这里的向量化一般使用列向量,即矩阵对矩阵的求导可以表示为:
0.2 矩阵对矩阵求导的微分法
向量化的矩阵对矩阵求导,主要是为了使用类似于前面讲过的微分法求导。之前(三)标量对向量矩阵求导的微分法里有:
和之前标量对矩阵的微分法相比,这里的迹函数被矩阵向量化代替了。
0.3 矩阵向量化的主要运算法则
矩阵向量化的主要运算法则:
二、Hessian矩阵
黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。 在数学中,海森矩阵(Hessian matrix 或 Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵。
假设有一实数函数:
三、应用
3.1 多元函数的极值
定理:(二元函数取得极值的充分条件)如果函数 z = f ( x , y ) z=f(x, y)z=f(x,y) 在点 ( x 0 , y 0 ) \left(x_{0}, y_{0}\right)(x
0
,y
0
) 的某邻域内具有连续的二阶偏导数, ( x 0 , y 0 ) \left(x_{0}, y_{0}\right)(x
0
,y
0
) 是它的驻点,令: