【学习记录】《DeepLearning.ai》第三课：浅层神经网络(Shallow neural networks)-阿里云开发者社区

【学习记录】《DeepLearning.ai》第三课：浅层神经网络(Shallow neural networks)

2021-09-04 875

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 浅层神经网络，2021/9/4

第三课：浅层神经网络(Shallow neural networks)

3.1 神经网络概述

PASS

3.2 神经网络的表示

神经网络图

如上图，从左到右依次为输入层、隐藏层、只有一个节点的层为输出层，负责输出预测值。

神经网络1

一般称上图网络为两层神经网络，一般不把输入层看做一个标准层，因此该网络有一个隐藏层和输出层。

在隐藏层有两个参数$W$和$b$,通常表示为$W^{[1]},b^{[1]}$,$W$为$4*3$矩阵，$b$为$4*1$矩阵，$4$来自于有四个节点或者隐藏层单元，$3$表示有三个特征输入。同理我们得到输出层参数$W^{[2]},b^{[2]}$，他们分别是$1*4$和$1*1$维度矩阵。

3.3 计算一个神经网络的输出

一个神经网络输出

如上图，对于一个训练样本，根据给出一个单独的输入特征向量，根据上限四个公式，进而计算出一个简单神经网络的输出。

3.4 多样本向量化

$a^{[2](i)}$对于上面的网络表示的是第$i$个训练样本的第二层输出值。

若要实现所有样本，可以使用循环方法来对上面式子进行循环，要注意所有样本要加上$(i)$,比如$z^{[1](i)}$,其他也一样，加上上标$(i)$，如下图.

然而通常使用向量化方法：

上图中的$X,Z^{[1]},A^{[1]}$矩阵水平方向上代表了不同的训练样本，从竖直方向上代表了不同的隐藏单元（不同的输入特征），将训练样本横向堆叠成一个矩阵X。

向量化方法如下：

$$ Z^{[1]}=W^{[1]}X+b^{[1]}\\ A^{[1]}=\sigma(Z^{[1]})\\ Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\ A^{[2]}=\sigma(Z^{[2]}) $$

3.5 向量化实现的解释

总结：将列向量横向堆叠成矩阵通过公式计算后，得到成列堆叠的输出。

在此之前一直使用$sigmoid$函数，本节课内容有助于理解向量化实现，下节课介绍不同种类的激活函数。

3.6 激活函数(Activation functions)

双曲正切函数(tanh函数):

$$ a=tanh(z)=\frac{e^z-e^{-z}}{e^z+e^{-z}} $$

如图该函数的值域是$[-1,1]$

不同层的激活函数可以不同，通常tanh函数效果比sigmoid函数要好，因此我们可以在隐藏层用tanh函数，但是输出层我们希望其输出值$\widehat{y}$在[0,1]之间，因此在输出层使用sigmoid函数比较好。

上图3为线性修正单元(Relu),$a=max(0,z)$

总结：

1.对于sigmoid函数：用在二分类的输出层，几乎不用；

2.最常用的是ReLU函数

为何需要非线性激活函数

如果使用线性激活函数，则神经网络只是把输入线性组合再输出，这样的话隐藏层就没啥用了。。。

可以使用线性激活函数的地方：输出层（但这玩意也不常用！！！）

3.8 激活函数的导数(Derivatives of activation functions)

(1) sigmoid函数

$$ g(z)=\frac{1}{1+e^{-z}} $$

其导数：

$$ \frac{d}{dz}g(z)=g(z)(1-g(z)) $$

当z=10或z=-10,导数约为0，

当z=0,根据图可以得到导数约为1/4.

通常在神经网络中：

$$ a=g(z);\\ g(z)'=\frac{d}{dz}g(z)=a(1-a) $$

以下几个表示方法同理，下面省略。

(2)Tanh 函数

其导数为：

$$ \frac{d}{dz}g(z)=1-(g(z))^2 $$

当z=10或z=-10，其导数约为0，

当z=0,导数为1。

（3）ReLU（线性修正函数）

$$ g(z)=max(0,z)\\ g(z)^{'} = \left\{\begin{array}{rcl} 0 & \mbox{if}&z<0\\ 1 &\mbox{if}&z>0\\ undefined & \mbox{if} & z=0 \end{array}\right. $$

注

通常在z=0时候给定其导数为1,0。但是z=0的情况非常少。

(4)Leaky ReLU（泄露线性修正函数）

$$ g(z)=max(0.01z,z)\\ g(z)^{'} = \left\{\begin{array}{rcl} 0.01 & \mbox{if}&z<0\\ 1 &\mbox{if}&z>0\\ undefined & \mbox{if} & z=0 \end{array}\right. $$

注：

通常在z=0的时候给定其导数为1，0.01，同上z=0的情况很少。

3.9 神经网络的梯度下降

1.正向传播（四个式子）：

$$ Z^{[1]}=W^{[1]}X+b^{[1]}\\ A^{[1]}=g^{[1]}(Z^{[1]})\\ Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}\\ A^{[2]}=g^{[2]}(Z^{[2]}) $$

2.反向传播（六个式子）：

这些公式都是针对所有样本进行向量化，其中$Y$是$1*m$矩阵

$np.sum$中$axis=1$表示水平相加求和，$keepdims$是防止Python输出类似$(n,)$，确保输出类似于$(n,1)$维矩阵。还用一种输出方式，调用$reshape$。

3.10 （选修）直观理解反向传播

PASS

3.11 随机初始化(Random+Initialization)

如果随机初始化权重或者参数都为0，梯度下降将不会起作用。

通常做如下初始化：

$$ W^{[1]}=np.random.randn(2,2)*0.01\\ b^{[1]}=np.zeros((2,1))\\ W^{[2]}=np.random.randn(2,2)*0.01\\ b^{[2]}=0 $$

关于参数0.01的解释：

通常对于$Z^{[1]}=W^{[1]}X+b^{[1]},a^{[1]}=g^{[1]}(Z^{[1]})$,如果使用激活函数为tanh或者sigmoid函数，如果数值波动很大，则初始值会停在tanh/sigmoid函数图像平坦的地方，此时梯度很小，下降就会很慢，学习也就很慢，因此通常初始值都选择较小的值。

而对于浅层神经网络，也就是只用一层隐藏层的神经网络，设置为0.01可以使用。对于较深的神经网络，需要设置其他常数，这个在下一课出现。

【学习记录】《DeepLearning.ai》第三课：浅层神经网络(Shallow neural networks)

第三课：浅层神经网络(Shallow neural networks)

3.1 神经网络概述

3.2 神经网络的表示

3.3 计算一个神经网络的输出

3.4 多样本向量化

3.5 向量化实现的解释

3.6 激活函数(Activation functions)

为何需要非线性激活函数

3.8 激活函数的导数(Derivatives of activation functions)

3.9 神经网络的梯度下降

3.10 （选修）直观理解反向传播

3.11 随机初始化(Random+Initialization)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【学习记录】《DeepLearning.ai》第三课：浅层神经网络(Shallow neural networks)

第三课：浅层神经网络(Shallow neural networks)

3.1 神经网络概述

3.2 神经网络的表示

3.3 计算一个神经网络的输出

3.4 多样本向量化

3.5 向量化实现的解释

3.6 激活函数(Activation functions)

为何需要非线性激活函数

3.8 激活函数的导数(Derivatives of activation functions)

3.9 神经网络的梯度下降

3.10 （选修）直观理解反向传播

3.11 随机初始化(Random+Initialization)

热门文章

最新文章

相关课程

相关电子书

相关实验场景