DeepLearning.ai学习笔记(一)神经网络和深度学习--Week3浅层神经网络

简介: 介绍DeepLearning课程总共五大章节,该系列笔记将按照课程安排进行记录。另外第一章的前两周的课程在之前的Andrew Ng机器学习课程笔记(博客园)&Andrew Ng机器学习课程笔记(CSDN)系列笔记中都有提到,所以这里不再赘述。

介绍
DeepLearning课程总共五大章节,该系列笔记将按照课程安排进行记录。
另外第一章的前两周的课程在之前的Andrew Ng机器学习课程笔记(博客园)&Andrew Ng机器学习课程笔记(CSDN)系列笔记中都有提到,所以这里不再赘述。

另外本系列课程也设有Jupyter Notebook形式练手项目,具体的可跳转至Coursera深度学习(DeepLearning.ai)课程习题--Python学习。

1、神经网络概要

img_c003edc51b00497c50b981f792ac2053.png

注意:这一系列的课程中用中括号表示层数,例如\(a^{[1]}\)表示第二层(隐藏层)的数据。

2、神经网络表示

img_f74ea29ee4c8ced8485029af8bdfd589.png
这个图的内容有点多,跟着下面的步骤来理解这个图吧:

  • 首先看蓝色字体,这个2层的神经网络(输入层一般理解成第0层)有输入层(input layer)、隐藏层(Hidden layer)、输出层(output layer)组成

  • 再看紫色字体,每一层用\(a^{[i]}, i=0,1...n\)表示,\(a^{[0]}\)表示输入层的所有数据。而下标则表示某一层的某一行的具体的数据,例如\(a^{[1]}_1\)表示隐藏层的第一个元素。

  • 最后是绿色字体,介绍的分别是\(w\)(权重)和\(b\)(偏置),其中\(w^{[1]}\)表示输入层到隐藏层的权重,其是(4,3)的矩阵,而\(b^{[1]}\)是(4,1)的矩阵。

3、计算神经网络的输出

img_9d108ae7a7c96caf7a4db4a697d1cc6a.png
这个比较简单就不做过多解释了,主要就是线性代数的知识。

4、多个例子中的向量化

还是以上面的神经网络为模型进行介绍,向量化过程如下:
for i in range(m):
\(\quad \quad z^{[1](i)}=W^{[1]}x^{(i)}+b^{[1]}\)
\(\quad \quad a^{[1](i)}=σ(z^{[1](i)})\)
\(\quad \quad z^{[2](i)}=W^{[2]}x^{(i)}+b^{[2]}\)
\(\quad \quad a^{[2](i)}=σ(z^{[2](i)})\)

5、向量化实现的解释

上一节中使用了for循环和矩阵向量机,这里可以更加彻底地向量化,让运算更加简单,如下:
\(Z^{[1]}=W^{[1]}X+b^{[1]}\)
\(A^{[1]}=σ(Z^{[1]})\)
\(Z^{[2]}=W^{[2]}X+b^{[2]}\)
\(A^{[2]}=σ(Z^{[2]})\)

6、激活函数

img_4d84ab5f3adaddf4608c41813f8b84c8.png
常用的一共四个激活函数

  • (1): \(σ(z)=\frac{1}{1+e^{-z}}\),一般只用在二元分类的输出层,因为二元分类一般要求输出结果\(y∈{0,1}\),而σ函数刚好其阈值就在0,1之间。而其它层更加建议用其他的激活函数。所以一个神经网络可以使用多种激活函数(用\(g^{[i]}\)表示第i层的激活函数)

  • (2): \(tanh(z) = \frac{e^z-e^{-z}}{e^z+e^{-z}}\),上下界限分别是1-1。它相比于\(σ(z)\)表现更好的原因是因为它的均值在0附近,有数据中心化的效果,所以下一层在学习的时候要更加方便和快速。但是\(σ(z)\)\(tanh(z)\)有一个共同的缺点,就是当z很大或很小的时候,它们的斜率就会趋向于0,这会使得梯度下降的学习速率降低。

  • (3): ReLu(The Rectified Linear Unit) 表达式是\(f(x)=max(0,x)\),它表现的效果是最好的,所以在不确定使用何种激活函数的时候就可以不顾一切的选择它~(难道这就是传说中的备胎?)
    相比sigmoid和tanh函数,Relu激活函数的优点在于:
    • 梯度不饱和。梯度计算公式为:1{x>0}。因此在反向传播过程中,减轻了梯度弥散的问题,神经网络前几层的参数也可以很快的更新。

    • 计算速度快。正向传播过程中,sigmoid和tanh函数计算激活值时需要计算指数,而Relu函数仅需要设置阈值。如果x<0,f(x)=0,如果x>0,f(x)=x。加快了正向传播的计算速度。
      因此,Relu激活函数可以极大地加快收敛速度,相比tanh函数,收敛速度可以加快6倍

  • (4): Leaky Relu,你也许发现了Relu激活函数在当z小于0的时候导数为0,虽然这在实践中并不影响,但是为了进一步优化提出了Leaky Relu,在z小于0时导数不为0.表达式一般为\(f(x)=max(0.01x,x)\)。其中0.01是一个可调的参数,类似于学习步长α

7、为什么需要非线性激活函数

如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与只有一个隐藏层效果相当,这种情况就是多层感知机(MLP)了。
正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最早的想法是sigmoid函数或者tanh函数,输出有界,很容易充当下一层输入(以及一些人的生物解释balabala)。

8、激活函数的导数

  • \(σ'(z)=σ(z)(1-σ(z))\)
  • \(tanh'(z)=1-(tanh(z))^2\)
  • Relu:
    • \(Relu'(z) =1 \ when\ z≥0;\)
    • \(Relu'(z) = 0 \ when \ z<0\)

9、神经网络的梯度下降法

10、直观理解反向传播

img_e91ff152d05f63929007a7c84e939507.png
9、10节的内容都是介绍的神经网络的计算过程,更加详细的可以参看Andrew Ng机器学习课程笔记--week5(上)(神经网络损失函数&反向传播算法)

11、随机初始化

在神经网络中,如果将参数全部初始化为0 会导致一个问题,例如对于上面的神经网络的例子,如果将参数全部初始化为0,在每轮参数更新的时候,与输入单元相关的两个隐藏单元的结果将是相同的,既:

img_08525788e791ffdf1abc05fb93979517.png
\(a_1^{(2)}=a_2^{(2)}\)这个问题又称之为对称的权重问题,因此我们需要打破这种对称,这里提供一种随机初始化参数向量的方法: 初始化\(θ_{ij}^{(l)}\)为一个落在 [-ε,ε]区间内的随机数, 可以很小,但是与上面梯度检验( Gradient Checking)中的ε没有任何关系。

更加详细的介绍可参看Andrew Ng机器学习课程笔记--week5(下)(梯度检测&BP随机初始化)


参考资料:
Deep learning系列(七)激活函数
神经网络为什么要有激活函数,为什么relu 能够防止梯度消失







MARSGGBO原创





2017-8-30



目录
相关文章
|
14天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
68 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
1月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
286 55
|
5天前
|
机器学习/深度学习 监控 算法
基于yolov4深度学习网络的排队人数统计系统matlab仿真,带GUI界面
本项目基于YOLOv4深度学习网络,利用MATLAB 2022a实现排队人数统计的算法仿真。通过先进的计算机视觉技术,系统能自动、准确地检测和统计监控画面中的人数,适用于银行、车站等场景,优化资源分配和服务管理。核心程序包含多个回调函数,用于处理用户输入及界面交互,确保系统的高效运行。仿真结果无水印,操作步骤详见配套视频。
41 18
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于yolov4深度学习网络的公共场所人流密度检测系统matlab仿真,带GUI界面
本项目使用 MATLAB 2022a 进行 YOLOv4 算法仿真,实现公共场所人流密度检测。通过卷积神经网络提取图像特征,将图像划分为多个网格进行目标检测和识别,最终计算人流密度。核心程序包括图像和视频读取、处理和显示功能。仿真结果展示了算法的有效性和准确性。
67 31
|
1月前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如&quot;How are you&quot;、&quot;I am fine&quot;、&quot;I love you&quot;等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
72 17
|
1月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
59 10
|
1月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
66 10
|
1月前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。