DeepLearningAI 学习笔记 1.3 浅层 logistic 神经网络

简介: 1.3 浅层 logistic 神经网络 视频:第三周 浅层神经网络 整理:飞龙普通的 logistic 可看做无隐层的神经网络。

1.3 浅层 logistic 神经网络

视频:第三周 浅层神经网络

整理:飞龙

普通的 logistic 可看做无隐层的神经网络。下面我们做出一个单隐层的神经网络,它本质上是 logistic 套着 logistic,所以也叫作多层 logistic。

我们的神经网络有三层,输入层,一个隐层,和输出层。输入层的每个节点对应训练集X的每个特征,节点数量就是特征数量。隐层的节点任意,这张图里面是四个。输出层只有一个节点,它就是我们的假设。

每个隐层节点,以及输出层节点中,都要执行上一节的 logistic 运算。

上一节中,我们已经推导了向量化的公式。为了简便起见,我们直接用向量化的公式起步。

我们引入一种的表达方式,用 Z[1]j 表示隐层第j个节点里面的值。用 Z[2] 表示输出层里面的值,因为只有一个节点,就不加下标了。

在每个隐层节点中,我们有:

Z[1]j=Xθ[1]jA[1]j=σ(Z[1]j)

注:

我这里的 X 仍然是行为样本,列为特征。如果你的 X 是我这里的转置,记得把其它的量也加上转置。

然后,我们尝试进一步使其向量化。

Θ[1]=|θ[1]j|

我们把 θ[1]j 按列堆叠,得到 Θ[1] 。由于 θ[1]j 是矩阵乘法的右边,它乘以 X 会得到按列堆叠的 Z[1]j

Z[1]=XΘ[1]=|Z[1]j|

A[1] 就是对 Z[1] 的每个元素应用 sigmoid 函数,所以是一样的结构。

A[1]=σ(Z[1])=|A[1]j|

在神经网络中,sigmoid 函数叫做激活函数, A[1] 叫做激活值。每个节点的激活值提供给下一层,作为下一层的特征。

也就是说:

Z[2]=A[1]θ[2]A[2]=σ(Z[2])

A[2] 就是我们的假设,它等于样本属于正向分类的概率。

成本函数 J 的计算也类似。

J=Sum(Ylog(A[2])+(1Y)log(1(A[2]))

计算图

由于目前为止的量有点多,我们需要画出它们的关系图。

X-----------Z^[1]----A^[1]-------Z^[2]----A^[2]---J
            |                    |                |
Theta^[1]---+        theta^[2]---+        Y-------+

然后我们统计一下这些量的尺寸信息。

尺寸
X n_data x n_features
Θ[1] n_features x n_hidden_nodes
Z[1] A[1] n_data x n_hidden_nodes
θ[2] n_hidden_nodes x 1
Z[2] A[2] n_data x 1

这个很重要,以后有用。

反向传播

神经网络中的求导过程又叫做反向传播,只是一个新名词,没什么特别的。

我们这里待定的量变成了两个: Θ[1] θ[2]

首先, J θ[2] 的关系,类似于 logistic 里面它和 θ 的关系。我们可以直接得出:

dJdθ[2]=A[1]T(A[2]Y)

下面求 dJdΘ[1] 。从 J Θ[1] 路径上的所有导数都需要求出来。首先我们得出:

dJdZ[2]=A[2]Y

然后:

dZ[2]dA[1]=θ[2]T

这个导数与 A[1] 同型,只有我们将 θ[2] 转置过来,再广播成n_data x n_hidden_nodes,它才同型。

dJdA[1]=dJdZ[2]θ[2]T

我们发现,左边的导数是n_data x n_hidden_nodes的,右边的两个导数分别是n_data x 11 x n_hidden_nodes的,所以用矩阵乘法。

dA[1]dZ[1]=A[1](1A[1])dJdZ[1]=dJdA[1]A[1](1A[1])

我们发现,左边的导数是n_data x n_hidden_nodes的,右边的两个导数也是,所以用逐元素乘法。这个规律在反向传播中十分重要。

最后一步和 logistic 中的情况相似,所以照搬。

dJdΘ[1]=XTdJdZ[1]

最后别忘了对两个导数除以 ndata

代码

Theta_sup1 = np.random.rand(n_features, n_hidden_nodes) / 100
theta_sup2 = np.random.rand(n_hidden_nodes, 1) / 100

for _ in range(max_iter):
    # 正向传播过程
    Z_sup1 = np.dot(X, Theta_sup1)
    A_sup1 = sigmoid(Z_sup1)
    Z_sup2 = np.dot(A_sup1, theta_sup2)
    A_sup2 = sigmoid(Z_sup2)

    # 反向传播过程
    dJ_dZ_sup2 = (A_sup2 - Y) / n_data
    dJ_dtheta_sup2 = np.dot(A_sup1.T, dJ_dZ_sup2)
    dZ_sup2_dA_sup1 = theta_sup2.T
    dA_sup1_dZ_sup1 = A_sup1 * (1 - A_sup1)
    dJ_dZ_sup1 = np.dot(dJ_dZ_sup2, dZ_sup2_dA_sup1) * dA_sup1_dZ_sup1
    dJ_dTheta_sup1 = np.dot(X.T, dJ_dZ_sup1)

    Theta_sup1 -= alpha * dJ_dTheta_sup1
    theta_sup2 -= alpha * dJ_dtheta_sup2
相关文章
|
11月前
|
Ubuntu 网络安全 图形学
Ubuntu学习笔记(二):ubuntu20.04解决右上角网络图标激活失败或者消失,无法连接有线问题。
在Ubuntu 20.04系统中解决网络图标消失和无法连接有线网络问题的方法,其中第三种方法通过检查并确保Windows防火墙中相关服务开启后成功恢复了网络连接。
3353 0
Ubuntu学习笔记(二):ubuntu20.04解决右上角网络图标激活失败或者消失,无法连接有线问题。
|
机器学习/深度学习 存储 自然语言处理
|
存储 算法 网络虚拟化
【计算机网络】学习笔记,第三篇:数据链路层
现在的光纤宽带接入 FTTx 都要使用 PPPoE 的方式进行接入。在 PPPoE 弹出的窗口中键入在网络运营商购买的用户名和密码,就可以进行宽带上网了 利用 ADSL 进行宽带上网时,从用户个人电脑到家中的 ADSL 调制解调器之间,也是使用 RJ-45 和 5 类线(即以太网使用的网线)进行连接的,并且也是使用 PPPoE 弹出的窗口进行拨号连接的
220 5
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
205 2
|
11月前
|
机器学习/深度学习 数据可视化 Linux
Seaborn可视化学习笔记(一):可视化神经网络权重分布情况
这篇文章是关于如何使用Seaborn库来可视化神经网络权重分布的教程,包括函数信息、测试代码和实际应用示例。
271 0
|
机器学习/深度学习 自然语言处理 并行计算
【深度学习+面经】Transformer 网络学习笔记
Transformer模型的核心概念、优缺点以及在多个领域的应用,并提供了针对Transformer架构的面试问题及答案。
572 2
|
监控 Java 数据库连接
【后台开发】TinyWebser学习笔记(1)网络编程基础知识
【后台开发】TinyWebser学习笔记(1)网络编程基础知识
114 3
|
网络协议 Docker 容器
Ubantu docker学习笔记(七)容器网络
Ubantu docker学习笔记(七)容器网络
|
网络协议 网络架构 数据格式
计算机网络学习笔记(一)
OSI七层网络模型旨在支持异构网络互联,从下到上分别为物理层(传输比特流)、数据链路层(帧传输,如交换机)、网络层(IP数据包路由,如路由器)、传输层(TCP/UDP,端到端通信)、会话层(管理会话)、表示层(数据格式转换)和应用层(用户接口,如FTP, SMTP)。每一层负责不同的通信功能,并通过协议如PPP, IP, TCP等协同工作。
112 0
|
缓存 网络协议 开发者
计算机网络学习笔记(三)
TCP的异常终止使用reset报文,用于强制关闭连接,不等待正常四次挥手。RST标志位设置时,发送方直接丢弃缓存,接收方无需确认。常见情况包括:尝试连接服务器未开放的端口、一方异常崩溃、收到不属于现有连接的报文、超时未收到确认报文或应用开发者优化效率。reset报文帮助释放资源,防止连接挂起。
160 0

热门文章

最新文章