一、符号规定
一组标量y i y_iy
i
,对一个标量x xx求导可以表示为:
二、矩阵向量求导布局
分子布局(numerator layout)和分母布局(denominator layout )。
2.1 分子布局:
求导的结果以分子为主,即求导的结果与分子(即∂ y i ∂ x \frac{\partial y_{i}}{\partial x}
∂x
∂y
i
的分子)的维度相同,如果y是一个m维的列向量,则求导的结果也是一个m维的列向量。
2.2 分母布局:
求导的结果以分母为主,如果y是一个m维的列向量,则求导的结果也是一个m维的行向量。所以分子布局和分母布局的结果是转置关系。
2.3 栗子
标量y对矩阵X求导,那么如果按分母布局,则求导结果的维度和矩阵X的维度m×n是一致的。如果是分子布局,则求导结果的维度为n×m。
对于标量对向量或者矩阵求导,向量或者矩阵对标量求导这4种情况,对应的分子布局和分母布局的排列方式已确定。
2.4 向量对向量的求导
这里讨论列向量对列向量的求导,比如m维列向量y对n维列向量x求导。
对于这2个向量求导,那么一共有mn个标量对标量的求导。求导的结果一般是排列为一个矩阵。如果是分子布局,则矩阵的第一个维度以分子为准,即结果是一个m×n的矩阵:
对于上面5种求导类型,可以各选择一种布局来求导。但是对于某一种求导类型,不能同时使用分子布局和分母布局求导。
在机器学习算法原理的资料推导里,我们并没有看到说正在使用什么布局,也就是说布局被隐含了,这就需要自己去推演,比较麻烦。但是一般来说我们会使用一种叫混合布局的思路,即如果是向量或者矩阵对标量求导,则使用分子布局为准,如果是标量对向量或者矩阵求导,则以分母布局为准。对于向量对对向量求导,有些分歧,后面统一以分子布局的雅克比矩阵为主。