7.神经网络激活函数求导
7.1Sigmoid激活函数
其导函数为:
7.2Tanh激活函数
其函数形式为:
其导函数为:
7.3Softmax激活函数
🚩Softmax函数将多个标量映射为一个概率分布,其形式为:
首先求标量形式的导数,即第 i 个输出对于第 j个输入的偏导数:
那么当 i = j 时:
当 i ≠ j 时:
两者合并:
8.高阶导数
🚩前面学的是一阶导数,对导数再次求导就是高阶导数,二阶和二阶以上的导数统称为高阶导数。
9.导数与函数单调性
函数的导数大于 0,函数是单调增的。函数的导数小于 0,函数是单调减的。
举个栗子:
10.极值定理
🚩导数为我们寻找极值提供依据,对于可导函数而言,因为在极值位置必然有函数的导数等于0。
f′(x)=0
极值处函数的导数等于 0,这是必要条件,但不是充分条件,因为极值处的导数必然等于 0 ,但是导数等于 0 处不代表一定是极值。 比如:y=x3
其导数为:f ′ ( x ) = 2x2,令导数为 0 , 求得x = 0,显然 x = 0 ,不是函数的极值!
11.导数与函数凹凸性
11.1 凹凸性概念与判断
🚩函数的二阶导数是和函数的凹凸性是有关系的,凹凸性怎么定义的?
先来做简单的介绍,这里先记住凸函数是向下凸的, 反正就是凹的,是否是凸函数可以通过二阶导数,如果二阶导数是大于 0 就是凸函数。f ′ ′ ( x ) > 0
给定函数 f ( x ) = x 2,其二阶导数是f ′ ′ ( x ) =2> 0
11.2 知识点拓展
f′(x)=0,被称之为驻点,驻点是函数增减性的交替点,一侧增一侧减。
f′′(x)=0,被称之为拐点,拐点是函数凹凸性的交替点,一侧凸一侧凹。
举例说明:
f(x)=sinx
f′(x)=cosx,令导数为 0 ,左右两侧分别是单调增或单调减。
f′′(x)=−sinx,令导数为 0 ,左右两侧分别是凹凸函数。
12.一元函数泰勒展开
❗️注:0 ! = 1
上述就是泰勒公式,是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。
方程变形:
更加通俗的表示为:
泰勒展开在高等数学里是非常有用的,它可以用来研究函数某些性质完成很多任务。在机器学习里面,它用来求函数的极值用的,很多时候函数 f ( x ) 可能会非常复杂,无法直接计算,我们用泰勒展开做一个近似,梯度下降法怎么做的呢?是做一个近似,保留泰勒展开一阶项。而牛顿法是保留泰勒展开二阶项,忽略二阶以上的项,用泰勒二阶展开来进行函数 f ( x ) 近似表达。
一阶泰勒公式:
二阶泰勒公式: